检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王炜琦 姜丹 曹少中 张寒 肖克晶 WANG Weiqi;JIANG Dan;CAO Shaozhong;ZHANG Han;XIAO Kejing(School of Information Engineering,Beijing Institute of Graphic Communication,Beijing 102600,China)
出 处:《北京印刷学院学报》2024年第6期14-21,共8页Journal of Beijing Institute of Graphic Communication
基 金:北京市自然基金项目-北京市教委科技计划重点项目(KZ202010015021);专业学位研究生联合培养基地建设-电子信息(21090223001);北京市教委科技计划一般项目(KM202110015003);北京印刷学院博士启动金(27170123036)研究成果。
摘 要:在自然语言处理领域,中文长文本摘要生成一直是自动摘要领域的难题,中文因其丰富的语法结构、多义词汇以及词序对句子含义的影响,自动摘要的难度较大。针对中文长文本摘要这一难题,提出了一种混合式摘要模型,首先对文本进行向量化,然后利用抽取式摘要模型进行信息提取,最后利用生成式摘要模型进行文章摘要的生成,其中采用更适配中文语境的词表和分词器,提升摘要句准确率。实验结果表明,抽取—生成式混合模型在针对中文长文本摘要时表现出色,生成的摘要文本更加流畅、连贯,具有更好的可读性和理解性。In the field of natural language processing,generating Chinese long text summaries has always been a challenge in the area of automatic summarization.Chinese language,due to its rich grammatical structure,polysemous vocabulary,and the influence of word order on sentence meaning,the difficulty of automatic summarization is greater.To address this challenge,a hybrid summarization model is proposed that firstly vectorizes the text,then uses an extractive summarization model for information extraction,and finally uses a generative summarization model for summary generation.The model utilizes word lists and tokenizers more suitable for the Chinese context to improve the accuracy of summary sentences.Experimental results show that the extractive-generative hybrid model performs well in generating Chinese long text summaries,with more fluent and coherent summary text,better readability and comprehensibility.
关 键 词:中文长文本摘要 混合模型 BERT DGCNN T5-PEGASUS
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38