基于实体信息增强及多粒度融合的多文档摘要  

Entity Enhanced Multi-Document Summarization with Multi-Granularity Fusion

在线阅读下载全文

作  者:唐嘉蕊 刘美玲[1] 赵铁军[2] 周继云 TANG Jiarui;LIU Meiling;ZHAO Tiejun;ZHOU Jiyun(School of Computer and Computer Engineering,Northeast Forestry University,Harbin,Heilongjiang 150006,China;Department of Computer Science,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China;Lieber Institute,Johns Hopkins University,Baltimore,MD 21218,USA)

机构地区:[1]东北林业大学计算机与控制工程学院,黑龙江哈尔滨150006 [2]哈尔滨工业大学计算机科学系,黑龙江哈尔滨150001 [3]约翰斯·霍普金斯大学利伯研究所,USA Baltimore MD21218

出  处:《中文信息学报》2023年第7期42-50,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61702091);黑龙江省自然科学基金(LH2022F002)。

摘  要:研究发现对大规模的数据进行预训练可以更好地从自然语言文本中捕捉更丰富的语义信息,目前很多的多文档摘要的工作也应用了预训练模型并取得了一定的效果。但是这些预训练模型没有考虑到结构化的实体-关系信息。不能更好地从文本中捕获事实性知识。该文提出了基于实体信息增强和多粒度融合的多文档摘要模型MGNIE,该方法将实体关系信息融入预训练模型ERNIE中,增强知识事实以获得多层语义信息,解决摘要生成的事实一致性问题,进而从多种粒度进行多文档层次结构的融合建模,以词信息、实体信息以及句子信息捕捉长文本信息摘要生成所需的关键信息点。该文设计的模型在国际标准评测数据集MultiNews上的实验证明,所提模型对比强基线模型效果和竞争力获得较大提升。The pre-trained language model has been applied in multi-document summarization with positive results.Considering the defects of pre-trained models in capturing factual knowledge the document structure,this paper proposes a multi-document summarization model MGNIE based on entity information enhancement and multi-granularity fusion.It incorporates the entity relationship information into the pre-trained model ERNIE,enhancing knowledge facts to solve the factual consistency issue.In addition,the multi-document structure information is fused with multiple granularities in terms of words,entities and sentences.The proposed model achieves a significant improvement in effectiveness and competitiveness over the strong baseline model on the international standard evaluation dataset MultiNews.

关 键 词:实体信息增强 预训练语言模型 多粒度融合 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象