检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学管理学院,哈尔滨150001 [2]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
出 处:《哈尔滨工业大学学报》2007年第7期1138-1141,共4页Journal of Harbin Institute of Technology
基 金:国家863计划资助项目(2002AA117010-09);国家自然科学基金重点资助项目(60435020)
摘 要:词的重要性评价是关键词抽取研究中比较重要的环节,其中一种比较常用的方法是对词的相关属性进行加权分析,并根据综合权值确定重要性程度.词所处的位置、词频、词性以及与线索词的同现信息等都是影响关键词抽取的重要因素.本文首先对可能影响关键词抽取的因素进行了探讨和分析,而后利用遗传算法对各个知识源参数进行了优化.在人工标注的语料上进行的测试结果验证了该方法的可行性.The evaluation of word importance is one of the important steps for keyword extraction. Currently a popular extraction method is to evaluate the comprehensive weight for every content word in terms of their attributes, the chance for a content word to be selected as keyword is determined by its comprehensive weight. Word location, word frequency, word POS and the concurrency with cue words are all key elements for the computation of comprehensive weight. In this paper, the impacts of these elements on keyword extraction are first analyzed from the theoretical and statistical angle, and then GA is utilized to optimize the coefficient of these attributes. The test on the human-tagged corpus verifies that our method is feasible.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.22.216.30