统计与规则相融合的领域术语抽取算法  被引量:12

Domain-specific terms extraction algorithm based on combination of statistics and rules

在线阅读下载全文

作  者:樊梦佳[1] 段东圣 杜翠兰 张仰森[1] 佟玲玲 

机构地区:[1]北京信息科技大学智能信息处理研究所,北京100192 [2]国家计算机网络应急技术处理协调中心,北京100190

出  处:《计算机应用研究》2016年第8期2282-2285,2306,共5页Application Research of Computers

基  金:国家自然科学基金资助项目(61370139);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519);北京市教委专项资助项目(PXM2013_014224_000042;PXM2014_014224_000067)

摘  要:针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频—逆文档频率(TF-IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于该方法构建的领域术语抽取系统的准确率为84.33%,能够有效支持中文领域术语的自动抽取。By using rules and integration of several statistical strategies, and from the perspective of unithood and termhood, this paper proposed a domain-specific term extraction algorithm and constructed the extraction system. System processes inclu- ded obtaining candidate terms based on information entropy expansion, unithood screening strategy based on part-of-speech match rules and boundary detection, and termhood screening strategy based on TF-IDF. Using this algorithm, it could not only extract commonly used d0main-specific terms, but also dig out new words about domain. The experiment results show that the accuracy of the term extraction system is 84.33% ,and the proposed method can effectively support the automatic term extrac- tion based on a specific domain.

关 键 词:领域术语抽取 词语度 领域度 左右信息熵扩展 边界检测 词频-逆文档频率 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP301.6[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象