快速的领域文档关键词自动提取算法  被引量:12

Fast algorithm of keywords automatic extraction in field

在线阅读下载全文

作  者:杨春明[1] 韩永国[1] 

机构地区:[1]西南科技大学计算机科学与技术学院,四川绵阳621010

出  处:《计算机工程与设计》2011年第6期2142-2145,共4页Computer Engineering and Design

摘  要:针对现有关键词提取算法需要大量训练数据及时间、常用词分词困难、互联网文档噪音等问题,提出了一种基于TF-IWF的领域文档关键词快速提取算法。该算法使用简单统计并考虑词长、位置、词性等启发性知识计算词权重,并通过文档净化、领域词典分词等方法提高了关键词提取的速度及准确度。对523篇学生心理健康领域文档的实验结果表明,该算法提取的文档关键词质量优于TF-IDF方法,且能在时间内完成。Aimed at the problems of existing keywords extraction algorithm needs a lot of training data and time, the difficult to segmentation of common words and the noise to internet documents, a fast algorithm ofkeywords extraction in the field base on TF-IWF is proposed. This algorithm uses simple statistics, considering heuristic knowledge of the word length, position and part of speech to calculate the term weight, and improves the speed and accuracy ofkeywords extraction by methods of documentation purification, domain dictionary segmentation. 523 articles on students' mental health of experiment shows that keywords obtained from this algorithm is better than the quality of based on TF-IDF, and time complexity is O(n).

关 键 词:关键词提取 中文分词 领域词典 启发式知识 时间复杂度 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象