基于孪生网络文本语义匹配的多文档摘要  

Siamese Network-Based Text Semantic Matching for Multi-Document Summarization

在线阅读下载全文

作  者:钟琪 王中卿[1] 王红玲[1] ZHONG Qi;WANG Zhongqing;WANG Hongling(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《中文信息学报》2024年第5期107-116,共10页Journal of Chinese Information Processing

基  金:国家自然科学基金(61976146)。

摘  要:多文档摘要旨在从一组主题相关的文档集中抽取出最能代表文档集中心内容的句子作为摘要,文本语义匹配则是指学习两个文本单元之间的语义关系,使句子表征具有更加丰富的语义信息。该文提出了一种基于孪生网络文本语义匹配的多文档抽取式摘要方法,该方法将孪生网络和预训练语言模型BERT相结合,构建一个文本语义匹配与文本摘要联合学习模型。该模型运用孪生网络从不同的视角考察任意两个文本单元之间的语义关联,学习文档集中碎片化的信息,进一步对重要信息进行评估,最后结合文本摘要模型选择出更能代表文档集主要内容的句子组织成摘要。实验结果表明,该文所提方法和当前主流的多文档抽取式摘要方法相比,在ROUGE评价指标上有较大提升。Multi-document summarization aims to extract the sentences as a summary to best represents the central content of the document set.Text semantic matching refers to learning the semantic relationship between two text units,so that the sentence representation has richer semantic information.This paper proposes a siamese network based text semantic matching for multi-document extraction summarization.This method combines siamese network and pre-training model BERT to construct a joint learning model of text semantic matching and text summarization.The model uses the twin network to examine the semantic association between any two text units from different perspectives,learns the fragmented information in the document set,and finally combines the text summary model to select the main content of the document set.The experimental results show that compared with the current mainstream multi-document extractive summarization method,this method has a substantial improvement in the ROUGE index.

关 键 词:多文档抽取式摘要 语义关系 预训练语言模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象