基于统计的常用词搭配(Collocation)的发现方法被引量：15

Methods of Finding the Collocation Based on Statistics

出　　处：《情报学报》2002年第1期12-16,共5页Journal of the China Society for Scientific and Technical Information

基　　金：国家自然科学基金资助资助项目为:面向智能的信息理论及应用项目编号 :6 9982 0 0 1

摘　　要：常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。A collocation is defined as a sequence of two or more consecutive words,that has characteristics of a syntactic and semantic unit,and whose exact and unambiguous meaning or connotation cannot be derived directly from the meaning or connotation of its components.It is an important task to automatically find the collocation.The paper puts forward some methods that decide whether an expression is an collocation.The Methods include mutual information,t test,Pearson's chi square test and Likelihood Ratio.The results show that the methods are feasible.

关键词：常用词搭配二元组自然语言处理互信息最大可能比自动发现三元组多元组

分类号：G350[文化科学—情报学]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于统计的常用词搭配(Collocation)的发现方法被引量：15

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于统计的常用词搭配(Collocation)的发现方法 被引量：15

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于统计的常用词搭配(Collocation)的发现方法被引量：15