基于统计的汉语叠词自动识别研究  

Automatic Recognition Method for Chinese Reduplicated Words Based on Statistical Method

在线阅读下载全文

作  者:杨帆[1] 刘亮亮[2] 

机构地区:[1]中国船舶重工集团公司第723研究所,江苏扬州225001 [2]江苏科技大学计算机科学与工程学院,江苏镇江212003

出  处:《重庆理工大学学报(自然科学)》2016年第7期123-128,共6页Journal of Chongqing University of Technology:Natural Science

摘  要:提出一种汉语叠词的自动获取方法。首先利用结构合理的五元组模型对分词后的语料进行统计以获得各类叠词候选集;在此基础上,通过叠词度的运算判断实现"AAB"式、"ABB"式、"ABA"式、"ABAB"式、"AABB"式叠词的自动获取;在叠词度判断的基础上,通过左、右邻接熵的运算判断实现"AA"式叠词的自动获取。该方法根据结构合理的五元组模型获得的统计信息,结合叠词度和信息熵的判断,实现了叠词的量化判断和自动获取。实验结果证明:该方法能有效实现汉语叠词的自动获取,且准确率高。We proposed a Chinese reduplicated words automatic acquisition method. Firstly, the structure reasonable five-tuple model obtained various kinds of reduplicated words from corpus after segmentation. And on this basis, reduplicated words in forms of "AAB" and "ABB", "ABA", "ABAB", "AABB" would be automatically acquired according to combination degree. In order to obtain " AA " type of reduplicated words, this method calculated left adjacent entropy and rightadjacent entropy. According to the statistical information obtained by the structure reasonable five-tuple model, combination degree and entropy, these methods can automatically acquire Chinese reduplication. Experiments show that this method can effectively achieve the automatic acquisition of Chinese reduplication, and the accuracy rate is high.

关 键 词:汉语叠词 五元组模型 叠词度 左、右邻接熵 

分 类 号:TP39[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象