检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:杨攀[1,2] 张建[1] 李淼[1] 乌达巴拉[1] 雪艳[3]
机构地区:[1]中国科学院合肥智能机械研究所,安徽合肥230031 [2]中国科学技术大学信息科学技术学院,安徽合肥230027 [3]内蒙古大学蒙古学学院,内蒙古呼和浩特010021
出 处:《中文信息学报》2009年第1期50-57,共8页Journal of Chinese Information Processing
基 金:中国科学院知识创新工程重要方向资助项目(KGCX2-SW-511)
摘 要:该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。This paper presents an approach to morphology processing in Chinese Mongolian statistical machine translation, attempting to resolve problems of the word form selection and the word re-ordering in translation generation. On the basis of the original Chinese-Mongolian parallel corpus which is morphologically analyzed and POS tagged, two corpora are derived for the morphological experiments. Then the statistical models, including the language model, the translation model and the generation model, are established. The issue of decoding expansion is also discussed. Finally we analyze the two experiments based on different morphological processing methods: morpheme model experiment and factored method experiment. The results show that the BLEU scores of on the two morphological processing methods are better than the baseline system, revealing our method partially solved the problem of word form selection and word ordering.
关 键 词:计算机应用 中文信息处理 形态学 统计机器翻译 语料库 统计模型 解码
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249