基于短语的汉维/维汉统计机器翻译  被引量:15

Phrase-based Chinese-Uyghur/Uyghur-Chinese Statistical Machine Translation

在线阅读下载全文

作  者:董兴华[1] 周俊林[2] 郭树盛[1] 吐尔洪.吾司曼 

机构地区:[1]中国科学院新疆理化技术研究所,乌鲁木齐830011 [2]中国科学院新疆分院,乌鲁木齐830011

出  处:《计算机工程》2011年第9期16-18,21,共4页Computer Engineering

基  金:中国科学院西部行动计划高新技术基金资助项目(KGCX2-YW-507)

摘  要:利用电话录音的汉维平行语料库和开源的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。This paper gives a description of implementing a phrase-based machine translation system for Chinese-Uyghur,by the Moses toolkit,using a parallel corpus which is based on telephone recording.For the small scale parallel corpus and highly-inflected characteristics for Uyghur,it splits the Uyghur words into morphemes,and it gets another parallel corpus on morpheme-level.Experiments are carried out on word-level and morpheme-level separately,and show it can reduce the probability of Out-Of-Vocabulary(OOV) and improve the translation quality.

关 键 词:汉维 维汉 词素 预处理 后处理 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象