基于多知识源融合的关键词重要性评价研究  

The evaluation of word importance in keyword extraction based on the fusion of multiple knowledge sources

在线阅读下载全文

作  者:刘远超[1] 吴冲[1] 王晓龙[2] 

机构地区:[1]哈尔滨工业大学管理学院,哈尔滨150001 [2]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

出  处:《哈尔滨工业大学学报》2007年第7期1138-1141,共4页Journal of Harbin Institute of Technology

基  金:国家863计划资助项目(2002AA117010-09);国家自然科学基金重点资助项目(60435020)

摘  要:词的重要性评价是关键词抽取研究中比较重要的环节,其中一种比较常用的方法是对词的相关属性进行加权分析,并根据综合权值确定重要性程度.词所处的位置、词频、词性以及与线索词的同现信息等都是影响关键词抽取的重要因素.本文首先对可能影响关键词抽取的因素进行了探讨和分析,而后利用遗传算法对各个知识源参数进行了优化.在人工标注的语料上进行的测试结果验证了该方法的可行性.The evaluation of word importance is one of the important steps for keyword extraction. Currently a popular extraction method is to evaluate the comprehensive weight for every content word in terms of their attributes, the chance for a content word to be selected as keyword is determined by its comprehensive weight. Word location, word frequency, word POS and the concurrency with cue words are all key elements for the computation of comprehensive weight. In this paper, the impacts of these elements on keyword extraction are first analyzed from the theoretical and statistical angle, and then GA is utilized to optimize the coefficient of these attributes. The test on the human-tagged corpus verifies that our method is feasible.

关 键 词:关键词抽取 参数优化 遗传算法 知识源 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象