基于多种数据筛选的维汉神经机器翻译  被引量:3

Uyghur-Chinese neural machine translation system based on multiple data filtering

在线阅读下载全文

作  者:宜年 艾山·吾买尔[1] 买合木提·买买提[1] 吐尔根·依布拉音[1] YI Nian;AISHAN Wumaier;MAIHEMUTI Maimaiti;TURGUN Ibrayim(Xinjiang Laboratory of Multi-Language Information Technology,College of Information Science and Engineering,Xinjiang University,Urumqi 830046)

机构地区:[1]新疆大学信息科学与工程学院新疆多语种信息技术重点实验室,新疆乌鲁木齐830046

出  处:《厦门大学学报(自然科学版)》2022年第4期660-666,共7页Journal of Xiamen University:Natural Science

基  金:国家自然科学基金(62166044,616662077);国家语委重点科研项目(ZDI135-54);国家重点研发计划(2017YFB1002103)。

摘  要:为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名.To obtain satisfactory translation results,researchers have conducted extensive research on parallel data to generate large amounts of high-quality generative data.Following this trend,for data augmentation and system training methods,we propose to combine knowledge distillation,data augmentation,and data screening so that high-quality generated data can be acquired.Specifically,the knowledge distillation is used to obtain a robust Chinese-Uyghur translation model,and the reverse translation method generates the generated data with high quality based on the Chinese-Uyghur model.Different data screening methods are used to further acquire high-quality generated data.Then,a high-performance Uyghur-Chinese neural machine translation system is obtained using existing parallel and generated data.In terms of the CCMT2021 Uyghur-Chinese evaluation task,the impact of the aforementioned method on the quality of Uyghur-Chinese translation is validated.Compared with the baseline system,reverse translation,and other systems for the same task,the system trained by the proposed method secures more satisfactory translation results,and ranks the first in this translation task.

关 键 词:维汉翻译 自注意力机制 低资源翻译 

分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象