基于句子主题发现的中文多文档自动摘要研究被引量：8

The Study of Multi-Documents Summarization in Chinese Based on Sentence Topic Discovery

作　　者：唐晓波[1,2] 顾娜谭明亮 TANG Xiao-bo;GU Na;TAN Ming-liang(Center for Studies of Information Resources,Wuhan 430072,China;School of Information Management,Wuhan 430072,China)

机构地区：[1]武汉大学信息资源研究中心,湖北武汉430072 [2]武汉大学信息管理学院,湖北武汉430072

出　　处：《情报科学》2020年第3期11-16,28,共7页Information Science

基　　金：国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209).

摘　　要：【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。【Purpose/significance】Today, in the aspect of automatic text summarization of multi-documents, Many researchers ignore the potential subjects in texts while improving the representativeness of abstracts.【Method/process】Aiming at the above problems, this paper proposes a method based on sentence topic discovery, which views the multi-documents as a set of sentences. It uses LDA topic model to get the sentence clusters of the same topics, and calculates the similarity of sentence with the help of the word vectors via word2vec, then gets the abstract combining the importance of sentence via TextRank and the statistical characteristics of it.【Result/conclusion】The result of manual evaluation shows that the model of multi-documents automatic summarization proposed in this paper has achieved good results in terms of theme coverage, brevity and grammar.

关键词：多文档自动摘要主题发现 LDA主题模型信息抽取

分类号：TP391.1[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于句子主题发现的中文多文档自动摘要研究被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于句子主题发现的中文多文档自动摘要研究 被引量：8

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于句子主题发现的中文多文档自动摘要研究被引量：8