一种面向术语抽取的短语过滤技术  被引量:7

Phrase filtering technology oriented to term extraction

在线阅读下载全文

作  者:周浪[1,2] 冯冲[2] 黄河燕[2] 

机构地区:[1]南京理工大学计算机科学与技术学院,南京210094 [2]中国科学院计算机语言与信息工程研究中心,北京100097

出  处:《计算机工程与应用》2009年第19期9-11,共3页Computer Engineering and Applications

基  金:国家自然科学基金(No.60672149);国家高技术研究发展计划(863)(No.2006AA01Z152;No.2006AA010109)~~

摘  要:在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。In the term extraction process, some phrases or phrase fragments containing active lexical represent as the noisy,which usually have the stable collocation pattern and a high co-occurrence probability in the corpus.The traditional phrase filtering methods are inclined to measure the cohesion of the inner words,and own less discriminate ability with these active noisy.This paper proposes a phrase filtering approach based on left/right entropy technology to evaluate the active degree of words in the phrases or phrase fragments and filter the ones having high value.Validated by the tests,this approach can effectively remove the active noisy and improve the performance of the multi-word term extraction system.

关 键 词:术语抽取 短语过滤 左右熵 活跃因子 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象