基于统计的常用词搭配(Collocation)的发现方法  被引量:15

Methods of Finding the Collocation Based on Statistics

在线阅读下载全文

作  者:孙健[1] 王伟[1] 钟义信[1] 

机构地区:[1]北京邮电大学智能研究中心,北京100876

出  处:《情报学报》2002年第1期12-16,共5页Journal of the China Society for Scientific and Technical Information

基  金:国家自然科学基金资助资助项目为:面向智能的信息理论及应用项目编号 :6 9982 0 0 1

摘  要:常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。A collocation is defined as a sequence of two or more consecutive words,that has characteristics of a syntactic and semantic unit,and whose exact and unambiguous meaning or connotation cannot be derived directly from the meaning or connotation of its components.It is an important task to automatically find the collocation.The paper puts forward some methods that decide whether an expression is an collocation.The Methods include mutual information,t test,Pearson's chi square test and Likelihood Ratio.The results show that the methods are feasible.

关 键 词:常用词搭配 二元组 自然语言处理 互信息 最大可能比 自动发现 三元组 多元组 

分 类 号:G350[文化科学—情报学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象