检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京信息科技大学中文信息处理研究中心,北京100101
出 处:《北京信息科技大学学报(自然科学版)》2011年第5期49-52,58,共5页Journal of Beijing Information Science and Technology University
基 金:核高基项目(2010ZX01042-002-002);国家自然科学基金项目(60872133);北京市自然科学基金项目(4092015)
摘 要:提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。An algorithm of domain terms extraction based on entropy and word activity is presented.The corpus is preprocessed in order to extract candidate terms and the values of Normalization Corpus Distribution(NCD) and Normalization Domain Distribution(NDD) of candidate terms are calculated by means of adjusting the thresholds of NCD and NDD.Because noise words account for a relativiely large proportion of two-word candidate terms,a method of filtering the two-word candidate terms based on the word activity is adopted.This method takes into account probability distribution in category and internal features of domain terms.The experiment results show that this algorithm is a method of domain terms extraction that has better precision and recall rate.
关 键 词:领域词抽取 领域词过滤 信息熵 词语活跃度 知识获取 自然语言处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.52