基于注意力机制与端到端的中文文本纠错方法  被引量:4

CHINESE TEXT ERROR CORRECTION BASED ON ATTENTION MECHANISM AND END-TO-END

在线阅读下载全文

作  者:王匆匆 张仰森[1,2] 黄改娟 Wang Congcong;Zhang Yangsen;Huang Gaijuan(Institute of Intelligent Information Processing,Beijing Information Science and Technology University,Beijing 100101,China;Beijing Key Laboratory Internet Culture Digital Dissemination Research,Beijing 100101,China)

机构地区:[1]北京信息科技大学智能信息处理研究所,北京100101 [2]网络文化与数字传播北京市重点实验室,北京100101

出  处:《计算机应用与软件》2022年第6期141-147,共7页Computer Applications and Software

基  金:国家自然科学基金项目(61772081,61602044);科技创新服务能力建设-科研基地建设-北京实验室-国家经济安全预警工程北京实验室项目(PXM2018_014224_000010)。

摘  要:在中文文本纠错任务上,基于神经机器翻译的文本纠错模型已经取得最优表现。提出一种复制机制的纠错模型,它复制待纠错句子中的字词到目标生成文本中。由于中文文本纠错缺乏大量的标注数据,使用降噪自动编码器在大规模非标注中文语料库上预训练基于复制机制的模型。此外,还做了字级别和句子级别的多任务学习。实验结果显示,该方法在NLPCC2018中文文本纠错任务上取得最好成绩。In the task of Chinese text error correction,the text error correction model based on the neural machine translation has achieved the best performance.This paper proposes an error correction model of copy mechanism,which copies the words in the sentence to be corrected to the target generated text.Due to the lack of large amount of annotation data in Chinese text error correction,we used automatic noise reduction coder on large-scale non annotation Chinese corpus and pre-training model based on replication mechanism.In addition,we did word level and sentence level multi task learning.The experimental results show that this method achieves the best results in NLPCC2018 Chinese text error correction task.

关 键 词:神经机器翻译 文本纠错 降噪自动编码器 预训练 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象