基于编解码器结构的中文文本摘要  被引量:11

Abstractive Chinese text summarization based on encoder-decoder model

在线阅读下载全文

作  者:李大舟 于沛 高巍 马辉 LI Da-zhou;YU Pei;GAO Wei;MA Hui(School of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China)

机构地区:[1]沈阳化工大学计算机科学与技术学院,辽宁沈阳110142

出  处:《计算机工程与设计》2021年第3期696-702,共7页Computer Engineering and Design

基  金:辽宁省教育厅科学技术研究基金项目(L2016011);辽宁省教育厅科学研究基金项目(LQ2017008);辽宁省博士启动基金项目(201601196)。

摘  要:传统生成式模型中存在的梯度经过多次传播后,倾向于消失或爆炸,且存在语言理解不充分的性能缺陷,为此提出一种生成式自动文本摘要方法(BiGRUAtten-LSTM)。编码器端将原始文本输入到编码器并结合双向门控循环单元生成固定长度的语义向量,使用注意力机制分配每个输入词的权重来减少输入序列信息的细节损失。解码器端使用LSTM网络,融合先验知识和集束搜索方法将语义向量解码生成目标文本摘要。通过工业新闻数据集的实验验证,与传统的生成式文本摘要模型相比,ROUGE-1指标提高0.026、ROUGE-2指标提高0.056、ROUGE-L指标提高0.025。A method of generating automatic text summarization was proposed to solve the problem of the gradient in the traditional generative model which tended to disappear or explode after propagation(BiGRUAtten-LSTM).The encoder inputted the original text to the encoder and generated the semantic vector of fixed length by combining BiGRU.Attention mechanism was used to assign the weight of each input word to reduce the detail loss of input sequence information.The decoder used LSTM network,the prior knowledge and the beam search method were combined to decode the semantic vector to generate the target text abstract.Through the experimental verification of the industrial news data set,compared with the traditional generated text summary model,ROUGE-1 is increased by 0.026,ROUGE-2 is increased by 0.056,ROUGE-L is increased by 0.025.

关 键 词:生成式文本摘要 编解码器 双向门控循环单元 注意力机制 长短时记忆 集束搜索 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象