基于信息熵与词语活跃度的领域词抽取  被引量:1

Domain Terms extraction based on entropy and word activity

在线阅读下载全文

作  者:王成[1] 吕学强[1] 王弘蔚[1] 王涛[1] 

机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101

出  处:《北京信息科技大学学报(自然科学版)》2011年第5期49-52,58,共5页Journal of Beijing Information Science and Technology University

基  金:核高基项目(2010ZX01042-002-002);国家自然科学基金项目(60872133);北京市自然科学基金项目(4092015)

摘  要:提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。An algorithm of domain terms extraction based on entropy and word activity is presented.The corpus is preprocessed in order to extract candidate terms and the values of Normalization Corpus Distribution(NCD) and Normalization Domain Distribution(NDD) of candidate terms are calculated by means of adjusting the thresholds of NCD and NDD.Because noise words account for a relativiely large proportion of two-word candidate terms,a method of filtering the two-word candidate terms based on the word activity is adopted.This method takes into account probability distribution in category and internal features of domain terms.The experiment results show that this algorithm is a method of domain terms extraction that has better precision and recall rate.

关 键 词:领域词抽取 领域词过滤 信息熵 词语活跃度 知识获取 自然语言处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象