检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]南京理工大学计算机科学与技术学院,南京210094 [2]中国科学院计算机语言与信息工程研究中心,北京100097
出 处:《计算机工程与应用》2009年第19期9-11,共3页Computer Engineering and Applications
基 金:国家自然科学基金(No.60672149);国家高技术研究发展计划(863)(No.2006AA01Z152;No.2006AA010109)~~
摘 要:在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。In the term extraction process, some phrases or phrase fragments containing active lexical represent as the noisy,which usually have the stable collocation pattern and a high co-occurrence probability in the corpus.The traditional phrase filtering methods are inclined to measure the cohesion of the inner words,and own less discriminate ability with these active noisy.This paper proposes a phrase filtering approach based on left/right entropy technology to evaluate the active degree of words in the phrases or phrase fragments and filter the ones having high value.Validated by the tests,this approach can effectively remove the active noisy and improve the performance of the multi-word term extraction system.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46