检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]上海电力学院,上海200090 [2]浙江华云电力工程设计咨询有限公司,浙江杭州310000
出 处:《上海电力学院学报》2017年第6期607-612,共6页Journal of Shanghai University of Electric Power
基 金:国家自然科学基金(71203137;61272437);上海市科学技术委员会科研项目(14DZ1207106)
摘 要:为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算法计算出最能表达文本主题思想的特征关键词.实验结果表明,与传统方法相比,所提算法在查准率、查全率等相关指标上均有提高.A newkeyword extraction method based on context and TextRank algorithm is established to extract the knowledge efficiently from the massive texts. Firstly the algorithm uses mutual information to select the words into candidate key words collection depending on the key words in the context. Then it uses TextRank algorithm to select the words that can express the theme of text.The results showthat the algorithm has a higher degree of promotion in precision and recall.
关 键 词:关键词提取 上下文关系 互信息 TextRank算法
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7