PLSGA:阶段式长文本摘要生成方法  

PLSGA:Phase-Wise Long Text Summary Generation Approach

在线阅读下载全文

作  者:方缙 李宝安[1,2] 游新冬 吕学强 FANG Jin;LI Bao’an;YOU Xindong;LYU Xueqiang(School of Computer Science,Beijing Information Science and Technology University,Beijing 100101,China;Beijing Key Laboratory of Cyber Culture and Digital Communication,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区:[1]北京信息科技大学计算机学院,北京100101 [2]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《计算机工程与应用》2025年第2期170-178,共9页Computer Engineering and Applications

基  金:国家自然科学基金(62171043);北京市自然科学基金(4212020);国家语委重点项目(ZDI145-10);国家语委一般项目(YB145-3);北京市市教委科研计划项目(KM202111232001)。

摘  要:针对现有方法在处理长文本时,存在冗余信息处理困难和无法筛选出最高质量摘要的问题,提出了一种阶段式长文本摘要生成方法(PLSGA)。将样本数据的文本和参考摘要分割,利用Sentence-BERT获取语义向量并进行相似度比对,从中抽取文本的关键信息;通过关键信息和非关键信息训练抽取模型,以尽可能地保留原文本的语义信息;将抽取的关键信息和参考摘要作为样本输入骨干模型BART进行生成模型训练;通过生成模型生成多条候选摘要,并使用无参考摘要评分模型筛选出质量最好的摘要。提出的阶段式长文本摘要生成方法在多个中文长文本数据集上进行实验,结果表明相对于目前主流的方法以及ChatGPT,其效果均有提升,具有领域优势,生成的摘要质量更好,更具可读性。genera-tion method(PLSGA).Firstly,the paper segments the text of the sample data and the reference summary,and uses Sentence-BERT to compare and extract the key information of the text.The paper trains the extraction model through key in-formation and non-key information to retain the semantic information of the original text as much as possible.The extract-ed key information and reference summaries are input as samples into the backbone model BART for generative model train-ing.Finally,multiple candidate summaries are generated through the generative model,and the best-quality summaries are selected using the no-reference summaries scoring model.The experiment proves that the proposed stage-based long text summary generation method has been tested on multiple Chinese long text data sets.The results show that compared with the current mainstream method and ChatGPT,its effect has been improved,having domain advantages,and the quali-ty of the generated summary is much better and more readable.

关 键 词:文本摘要 Sentence-BERT 关键信息 BART 无参考摘要评分模型 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象