检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]西南科技大学计算机科学与技术学院,四川绵阳621010
出 处:《计算机工程与设计》2011年第6期2142-2145,共4页Computer Engineering and Design
摘 要:针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。Aimed at the problems of existing keywords extraction algorithm needs a lot of training data and time, the difficult to segmentation of common words and the noise to internet documents, a fast algorithm ofkeywords extraction in the field base on TF-IWF is proposed. This algorithm uses simple statistics, considering heuristic knowledge of the word length, position and part of speech to calculate the term weight, and improves the speed and accuracy ofkeywords extraction by methods of documentation purification, domain dictionary segmentation. 523 articles on students' mental health of experiment shows that keywords obtained from this algorithm is better than the quality of based on TF-IDF, and time complexity is O(n).
关 键 词:关键词提取 中文分词 领域词典 启发式知识 时间复杂度
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.54