一种基于词素媒介的汉蒙统计机器翻译方法  被引量:2

A Morpheme-Based Approach for Chinese-Mongolian SMT

在线阅读下载全文

作  者:杨振新 李淼[2] 陈雷[2] 卫林钰 陈晟 孙凯[1] 

机构地区:[1]中国科学技术大学自动化系,安徽合肥230027 [2]中国科学院合肥智能机械研究所,安徽合肥230031

出  处:《中文信息学报》2017年第4期57-62,69,共7页Journal of Chinese Information Processing

基  金:国家自然科学基金(61502445;61572462);中国科学院信息化专项(XXH12504-1-10)

摘  要:汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。To deal with the morphological difference between Chinese and Mongolian,this paper proposes a method of adopting morpheme of Mongolian as the pivot to Chinese-Mongolian statistical machine translation(SMT).First,we segment Mongolian word into morphemes,achieving a balance in the morphology of the language pair.Then,we treat Mongolian morpheme as pivot language and construct two new SMT systems:Chinese-Morpheme SMT and Morpheme-Mongolian SMT.New translation knowledge including phrase translation table and reordering model is introduced for these two SMT systems.Finally,we use multiple decoding paths and multiple features to incorporate the new translation knowledge.Experimental results demonstrate our method can improve the translation quality significantly.

关 键 词:中间语言 词素 统计机器翻译 短语翻译表 调序模型 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象