汉蒙统计机器翻译中的形态学方法研究  被引量:10

Morpholog-Processing in Chinese-Mongolian Statistical Machine Translation

在线阅读下载全文

作  者:杨攀[1,2] 张建[1] 李淼[1] 乌达巴拉[1] 雪艳[3] 

机构地区:[1]中国科学院合肥智能机械研究所,安徽合肥230031 [2]中国科学技术大学信息科学技术学院,安徽合肥230027 [3]内蒙古大学蒙古学学院,内蒙古呼和浩特010021

出  处:《中文信息学报》2009年第1期50-57,共8页Journal of Chinese Information Processing

基  金:中国科学院知识创新工程重要方向资助项目(KGCX2-SW-511)

摘  要:该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。This paper presents an approach to morphology processing in Chinese Mongolian statistical machine translation, attempting to resolve problems of the word form selection and the word re-ordering in translation generation. On the basis of the original Chinese-Mongolian parallel corpus which is morphologically analyzed and POS tagged, two corpora are derived for the morphological experiments. Then the statistical models, including the language model, the translation model and the generation model, are established. The issue of decoding expansion is also discussed. Finally we analyze the two experiments based on different morphological processing methods: morpheme model experiment and factored method experiment. The results show that the BLEU scores of on the two morphological processing methods are better than the baseline system, revealing our method partially solved the problem of word form selection and word ordering.

关 键 词:计算机应用 中文信息处理 形态学 统计机器翻译 语料库 统计模型 解码 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象