基于LDA与TextRank结合的多文档自动摘要研究  被引量:3

Multi-document Automatic Summarization Based on LDA Combined with TextRank

在线阅读下载全文

作  者:张波飞 李成城[1] ZHANG Bo-fei;LI Cheng-cheng(College of Computer and Information Engineering,Inner Mongolia Normal University,Hohhot 010022,China)

机构地区:[1]内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022

出  处:《软件导刊》2018年第4期13-15,18,共4页Software Guide

基  金:国家自然科学基金项目(61640204)

摘  要:大数据时代信息量急剧增长,伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息,提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型,得到句子的概率模型即文档中句子的重要性,然后考虑运算节点权重时的主题概率,得到新的迭代公式,通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明,该方法生成的文摘较单一算法效果显著。Information explosion leads to a large number of redundant information in the big data era.In this paper,we propose an algorithm to combine the LDA theme model with the TextRank algorithm.Firstly,we build a thematic model of the preprocessed document set to get the probability model of the sentence,that is,the sentence in the document.And then we take the subject probability into account and get the new iterative formula.The experimental results show that the method is more effective than the single algorithm.

关 键 词:冗余 LDA主题模型 TextRank算法 文摘 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象