基于关键词密度的多文档抽取式摘要算法  被引量:1

Multi‑document Extractive Summarization Algorithm Based on Keyword Density

在线阅读下载全文

作  者:杨朝举 葛唯益 王羽 徐建[1] YANG Chaoju;GE Weiyi;WANG Yu;XU Jian(School of Computer Science&Engineering,Nanjing University of Science&Technology,Nanjing 210094,China;Science and Technology on Information Systems Engineering Laboratory,Nanjing 210023,China)

机构地区:[1]南京理工大学计算机科学与工程学院,南京210094 [2]信息系统工程重点实验室,南京210023

出  处:《指挥信息系统与技术》2021年第5期48-53,共6页Command Information System and Technology

基  金:国家自然科学基金(61872186);中国电子科技集团信息系统工程重点实验室开放基金(05201901)资助项目。

摘  要:多文档摘要是自然语言处理领域的热点研究问题之一。面向多文档对象,提出了一种基于预训练语言模型和关键词密度的多文档抽取式摘要算法。首先,通过预训练模型获取文档中所有句子的文档级句向量;然后,借助余弦相似度创建句子间的边连接关系,并提出了基于关键词密度的句子评分方法来提取摘要;最后,在基准数据集上的试验结果表明,该算法的Rouge性能指标优于其他具有代表性的多文档抽取式摘要算法。Multi-document summarization is one of the hot research issues in the natural language pro⁃cessing domain.For multiple documents,a multi-document extractive summarization algorithm based on the pre-trained language model and the keyword density is proposed.Firstly,by the pre-training language model,the document-level sentence vectors(DLSV)of all sentences are obtained.Then,with the cosine similarity,the edge connections between sentences are created,and a sentence scoring method based on keyword density is proposed to extract abstracts.Finally,experiment results on the benchmark data set show that the algorithm's performance in terms of Rouge is better than other repre⁃sentative multi-document summarization algorithms'.

关 键 词:多文档摘要 抽取式摘要 文档级句向量 关键词密度 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象