基于信息熵与词语活跃度的领域词抽取被引量：1

Domain Terms extraction based on entropy and word activity

出　　处：《北京信息科技大学学报（自然科学版）》2011年第5期49-52,58,共5页Journal of Beijing Information Science and Technology University

基　　金：核高基项目(2010ZX01042-002-002);国家自然科学基金项目(60872133);北京市自然科学基金项目(4092015)

摘　　要：提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。An algorithm of domain terms extraction based on entropy and word activity is presented.The corpus is preprocessed in order to extract candidate terms and the values of Normalization Corpus Distribution（NCD） and Normalization Domain Distribution（NDD） of candidate terms are calculated by means of adjusting the thresholds of NCD and NDD.Because noise words account for a relativiely large proportion of two-word candidate terms,a method of filtering the two-word candidate terms based on the word activity is adopted.This method takes into account probability distribution in category and internal features of domain terms.The experiment results show that this algorithm is a method of domain terms extraction that has better precision and recall rate.

关键词：领域词抽取领域词过滤信息熵词语活跃度知识获取自然语言处理

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于信息熵与词语活跃度的领域词抽取被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于信息熵与词语活跃度的领域词抽取 被引量：1

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于信息熵与词语活跃度的领域词抽取被引量：1