基于高斯词长特征的中文分词方法  被引量:3

Gaussian Distribution of Word Length for Chinese Word Segmentation

在线阅读下载全文

作  者:张义[1] 李治江[1] 

机构地区:[1]武汉大学印刷与包装系,湖北武汉430079

出  处:《中文信息学报》2016年第5期89-93,共5页Journal of Chinese Information Processing

基  金:武汉大学自主科研项目;国家科技支撑计划项目(2012BAH91F03)

摘  要:中文分词是中文信息处理的基础,在语音合成、中外文翻译、中文检索、文本摘要等方面均有重要应用。在中文分词的任务中,存在的主要问题在于可用有效特征较少,分词准确率较低,如何有效的获取和使用分词特征是关键。该文从中文文本生成的过程出发,基于词长噪声的高斯分布特性,提出利用上下文的词长特征作为分词特征。实验表明,在封闭测试中,采用条件随机场模型,使用该特征对现有的实验结果有提高作用。Chinese word segmentation (CWS) is the foundation for Chinese information processing. This article proposed a feature of contextual word length based on Gaussian noise. The experiment results indicate that this feature can enhance the performance of the exit result.

关 键 词:高斯词长 条件随机场 中文分词 自然语言处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象