基于迭代式回译策略的藏汉机器翻译方法研究  被引量:8

Research on Tibetan-Chinese Machine Translation Method with Iterative Back Translation Strategy

在线阅读下载全文

作  者:慈祯嘉措 桑杰端珠 孙茂松[3] 周毛先[1,2] 色差甲 CIZHEN Jiacuo;SANGJIE Duanzhu;SUN Maosong;ZHOU Maoxian;SE Chajia(Key Laboratory of Tibetan Information Processing,Ministry of Education,Qinghai Normal University,Xining,Qinghai 810008,China;Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province,Xining,Qinghai 810008,China;Department of Computer Science,Tsinghua University,Beijing 100084,China)

机构地区:[1]青海师范大学藏文信息处理教育部重点实验室,青海西宁810008 [2]青海省藏文信息处理与机器翻译重点实验室,青海西宁810008 [3]清华大学计算机系,北京100084

出  处:《中文信息学报》2020年第11期67-73,83,共8页Journal of Chinese Information Processing

基  金:国家自然科学基金(61063033,61662061);国家重点研发计划(2017YFB1402200)。

摘  要:该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。Tibetan-Chinese machine translation is one of the most important research topics in Tibetan Natural Language Processing.Due to the limitation of parallel corpus between Tibetan and Chinese available,this paper is focused on improving Tibetan-Chinese machine translation by dealing with the low resource issue.Based on transformer architecture,we apply iterative back translation strategy and automatic translation filtering mechanism.In experiments with only 1.641 M mono Tibetan sentences,we achieve 6.7 and 9.8 improvements in term of BLUE score over the baseline model,respectively.

关 键 词:藏汉 回译 稀缺资源 自动筛选 神经网络 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象