维吾尔语词尾对汉维统计机器翻译影响的研究  被引量:8

Research on Uyghur Suffix's Influence on Chinese-Uyghur Statistical Machine Translation

在线阅读下载全文

作  者:米莉万.雪合来提 麦热哈巴.艾力[1,2] 吐尔根.依布拉音 姜文斌[3] 

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]新疆大学多语种信息技术重点实验室,乌鲁木齐830046 [3]中国科学院计算技术研究所,北京100190 [4]乌鲁木齐市工商局,乌鲁木齐830002

出  处:《计算机工程》2014年第3期224-227,共4页Computer Engineering

基  金:国家自然科学基金资助项目(61063026);国家自然科学基金资助重点项目(61032008);国家社会科学基金资助重点项目(10AYY006);新疆多语种信息技术重点实验室开放基金资助项目

摘  要:维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.1972。Uyghur which belongs to altaic language system is a typical agglutinative language and has large number of suffixes, and there is a big contrast with Chinese. According to the morphological characteristics of Uyghur language, this paper analyzes the Uyghur suffix's role in Chinese-Uyghur statistical machine translation system. With the help of the Cheiro and exsiting technology, it builds a hierarchical phrase-based Chinese-Uyghur statistical machine translation system. By comparing the performance of translation system with different granularity parallel corpora, experimental results show that the stem-affix representational units improve the performance of Chinese-Uyghur statistical machine translation system, and the BLEU value achieves to 0.197 2.

关 键 词:黏着语 词尾 统计机器翻译 层次短语翻译模型 语言模型 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象