Transformer-CRF词切分方法在蒙汉机器翻译中的应用  被引量:4

Application of Transformer-CRF Word Segmentation Method in Mongolian-Chinese Machine Translation

在线阅读下载全文

作  者:苏依拉[1] 张振 仁庆道尔吉[1] 牛向华 高芬 赵亚平 SU Yila;ZHANG Zhen;RENQING Dao’erji;NIU Xianghua;GAO Fen;ZHAO Yaping(School of Information Engineering,Inner Mongolia University of Technology,Hohhot,Inner Mongolia 010080,China)

机构地区:[1]内蒙古工业大学信息工程学院

出  处:《中文信息学报》2019年第10期38-46,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(61363052,61966028);内蒙古自治区自然科学基金(2016MS0605);内蒙古自治区民族事务委员会基金(MW-2017-MGYWXXH-03)

摘  要:基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型来进一步提高翻译质量和译文忠实度。根据构建模型对不同长度句子进行实验对比,表明模型在处理长时依赖问题上翻译性能得到提高。Focused on Mongolian-Chinese machine translation,this paper proposes a Transformer-CRF algorithm to perform corpus preprocessing for Mongolian morphemes and Chinese word segmentation.Then the encoding-decoding model based on Tensor2 Tensor is constructed.In order to learn more grammar and semantic knowledge from Mongolian corpus,this paper presents a morpheme quad-encoded word vector as the encoder input.In order to further alleviate the vocabulary limitation problem in neural network training,this paper introduces a proper noun dictionary into the translation model.Experimental results indicate that the model has improved translation quality in dealing with long-term dependence.

关 键 词:蒙汉翻译 Transformer-CRF分词算法 蒙古语词素 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象