检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:唐晓波[1,2] 顾娜 谭明亮 TANG Xiao-bo;GU Na;TAN Ming-liang(Center for Studies of Information Resources,Wuhan 430072,China;School of Information Management,Wuhan 430072,China)
机构地区:[1]武汉大学信息资源研究中心,湖北武汉430072 [2]武汉大学信息管理学院,湖北武汉430072
出 处:《情报科学》2020年第3期11-16,28,共7页Information Science
基 金:国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209).
摘 要:【目的/意义】目前在多文档自动摘要方面,研究者们主要关注于获取多文档集合中的重要主题内容,提出的很多自动摘要方法在提高摘要代表性的同时却忽略了文档中的潜在主题。【方法/过程】针对于多文档自动摘要中存在的冗余度较高且不能全面反映主题内容的问题,本文提出了一种基于句子主题发现的多文档自动摘要方法。该方法将多篇文档转换为句子集合,利用LDA主题模型对句子进行聚类分析与主题发现,并通过word2vec训练词向量计算句子的相似度;最终在主题之下通过TextRank算法来计算句子重要性,并结合句子的统计特征生成多文档集合的摘要。【结果/结论】通过人工测评的结果表明,本文提出的多文档自动摘要方法在主题覆盖性、简洁性、语法性等方面都取得了不错的效果。【Purpose/significance】Today, in the aspect of automatic text summarization of multi-documents, Many researchers ignore the potential subjects in texts while improving the representativeness of abstracts.【Method/process】Aiming at the above problems, this paper proposes a method based on sentence topic discovery, which views the multi-documents as a set of sentences. It uses LDA topic model to get the sentence clusters of the same topics, and calculates the similarity of sentence with the help of the word vectors via word2vec, then gets the abstract combining the importance of sentence via TextRank and the statistical characteristics of it.【Result/conclusion】The result of manual evaluation shows that the model of multi-documents automatic summarization proposed in this paper has achieved good results in terms of theme coverage, brevity and grammar.
关 键 词:多文档自动摘要 主题发现 LDA主题模型 信息抽取
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.46