一种基于TextRank的单文本关键字提取算法  被引量:20

Key-word extracting algorithm from single text based on TextRank

在线阅读下载全文

作  者:柳林青 余瀚[1] 费宁[1] 陈春玲[1] Liu Linqing;Yu Han;Fei Ning;Chen Chunling(College of Computer,Nanjing University of Posts&Telecommunications,Nanjing 210003,China)

机构地区:[1]南京邮电大学计算机学院,南京210003

出  处:《计算机应用研究》2018年第3期705-710,共6页Application Research of Computers

基  金:国家自然科学基金资助项目(11501302)

摘  要:作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结合,提出节点间边权为条件概率的新模型生成算法TextRank_Revised。通过对有标记和无标记的验证集进行验证,证明新的算法在不提升时间复杂度的前提下,通过计算单文本得出的单词排序结果相较于原TextRank算法更加吻合人工对文档的关键字提取结果。As a classical key-word extracting and abstraction auto-generating algorithm,TextRank considered the text as a group of terms,and sought a latent semantic relationship between terms according to iteratively calculating the weights of the terms in the nodes graph.Based on the nodes graph model of TextRank,combined node graph and Markov state transform model,weighted the edge between nodes with conditional probability,proposed a new nodes graph model and corresponding algorithm TextRank_Revised(TR-R).According to the verification on labeled and unlabeled samples,it shows that without promotion of time complexity,the new algorithm can get a key-word sorting consequence which is closer to the manual than the original algorithm from the single text.

关 键 词:TextRank 单文本关键字 提取算法 有向带权图 马尔可夫状态转移模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术] TP301.6[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象