汉语真需要词间空格吗——对汉语分词连写献疑  被引量:5

Do We Need White Space between Chinese Words?

在线阅读下载全文

作  者:熊文新[1] 

机构地区:[1]北京外国语大学中国外语教育研究中心/国家语言能力发展研究中心,北京100089

出  处:《语言科学》2014年第6期655-669,共15页Linguistic Sciences

基  金:作者主持的国家社科基金项目(11BYY051);教育部新世纪优秀人才支持计划(NCET-11-0591);作为子课题负责人参与的教育部哲学社会科学重大课题攻关项目(12JZD014)的阶段性成果之一

摘  要:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语"切分单位"的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。Chinese word segmentation is fundamental for Chinese information processing.To avoid ambiguity and out-of-vocabulary word,there was a proposal for adding a manual space between Chinese words,which we disagree with it.This paper first elaborates difficulties in word segmentation from the point of linguistic studies,language performance and language engineering,and then it discusses some uncertain factors in definition of the word,language awareness,word segmentation specification,construction of word list and its application in automatic text information processing.Not dwelling on exact definition of the word,the paper lists recent advances in character-based tagging with massive manually annotated recourses,which show an inspiring progress.At the end of the paper,we put forward a word segmentation guideline from a stance of language policy strategies.Guided by linguistic theory and data-driven machine learning algorithms,apractical word segmentation system can achieve better success in precision and adaptability.

关 键 词:汉语分词 词间空格 分词标准 中文信息处理 语言规划 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象