自动获取汉语词语搭配  被引量:14

Automatic Acquisition of Chinese Collocation

在线阅读下载全文

作  者:王素格[1] 杨军玲[2] 张武[1] 

机构地区:[1]上海大学计算机工程与科学学院,上海200436 [2]山西大学数学科学学院,山西太原030006

出  处:《中文信息学报》2006年第6期31-37,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金项目(60573074);山西省青年科技基金项目(20031027);山西省自然科学基金(20041040);山西省科技攻关项目(051129)

摘  要:作为一种词汇现象,词语搭配在自然语言处理的许多领域具有重要的应用。本文对4种词语相关性度量和3种词语结构分布度量分别进行了比较分析,并提出了一种基于互信息与熵融合的获取词语搭配的方法。实验结果表明:在同现频率较高情况下,互信息、Cosine系数、x2测试和似然比测试4种相关性度量对搭配判定有大致相同的效果;在度量词语的结构分布方面,熵要优于方差和离散度。本文所提方法依赖度量指标少,阈值容易选取,且与其他已有的方法具有同等效果。As a kind of word phenomenon, collocation plays a very important role in nature language processing. In this paper, 4 kinds of word association measurements and 3 kinds of word structure distribution measurements are compared and analyzed respectively, and a hybrid method based on mutual information and entropy for collocation is proposed. The experiment results indicate that 4 kinds of word association measurements, mutual information, Cosine coefficient, χ^2test and likelihood ratio have the same impact under high co-occurrence frequency for collocation acquiring and entropy is superior to variance and spread for measuring the word structure distribution. The proposed method relies on fewer measurements and can easily selects coefficient thresholds and achieves the same impact of the existing methods.

关 键 词:计算机应用 中文信息处理 词语搭配 互信息  

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象