基于多译文神经机器翻译数据增强方法  

A multi-translation-based data augmentation method for low-resource neural machine translation

在线阅读下载全文

作  者:李蔓菁 迟春诚 李付学[2] 闫红[2] LI Manjing;CHI Chuncheng;LI Fuxue;YAN Hong(College of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China;College of Electrical Engineering,Yingkou Institute of Technology,Yingkou 115014,Liaoning,China)

机构地区:[1]沈阳化工大学计算机科学与技术学院,沈阳110142 [2]营口理工学院电气工程学院,辽宁营口115014

出  处:《智能计算机与应用》2024年第6期35-40,共6页Intelligent Computer and Applications

基  金:辽宁省自然科学基金(2021-YKLH-12,2022-YKLH-18)。

摘  要:神经机器翻译(NMT)是目前机器翻译领域的主流技术之一,然而其翻译性能的优劣很大程度上取决于数据集的规模和质量。为了缓解数据集稀缺的问题,本文提出了一种基于多译文神经机器翻译的数据增强方法。首先,利用已训练的神经机器翻译模型翻译出多译文,接着,利用筛选策略选出多个译文,同时提出生成伪双语数据的2种策略:根据筛选出的译文找到对应的目标原文;利用反向翻译模型对多译文翻译。最后,生成的伪数据与原数据混合,训练增强后的翻译模型。实验结果表明,基于多译文数据增强方法可以有效提高NMT模型的翻译性能。Neural Machine Translation(NMT)is one of the mainstream technologies in the field of machine translation today,but its translation performance depends largely on the size and quality of the dataset.In order to alleviate the problem of dataset scarcity,this paper proposes a data augmentation method based on multi-translation neural machine translation.Firstly,the trained neural machine translation model is used to translate multiple translations;Then,the multi-translation screening strategy is used to select pseudo-monolingual data,and the target translation is generated using two strategies,which are finding the target text based on the filtered translations and translating multiple translations using a reverse translation model.Finally,the generated pseudo data is mixed with the original data to train an enhanced translation model.Experimental results show that the multi-translation data augmentation method can effectively improve the translation performance of NMT model.

关 键 词:神经机器翻译 数据增强 多译文 反向翻译 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象