检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张波飞 李成城[1] ZHANG Bo-fei;LI Cheng-cheng(College of Computer and Information Engineering,Inner Mongolia Normal University,Hohhot 010022,China)
机构地区:[1]内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022
出 处:《软件导刊》2018年第4期13-15,18,共4页Software Guide
基 金:国家自然科学基金项目(61640204)
摘 要:大数据时代信息量急剧增长,伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息,提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型,得到句子的概率模型即文档中句子的重要性,然后考虑运算节点权重时的主题概率,得到新的迭代公式,通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明,该方法生成的文摘较单一算法效果显著。Information explosion leads to a large number of redundant information in the big data era.In this paper,we propose an algorithm to combine the LDA theme model with the TextRank algorithm.Firstly,we build a thematic model of the preprocessed document set to get the probability model of the sentence,that is,the sentence in the document.And then we take the subject probability into account and get the new iterative formula.The experimental results show that the method is more effective than the single algorithm.
关 键 词:冗余 LDA主题模型 TextRank算法 文摘
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46