一种提高维吾尔语-汉语词语对齐的方法研究  被引量:9

Method to Improve the Result of Uyghur-Chinese Word Alignment

在线阅读下载全文

作  者:麦热哈巴·艾力[1,2,3] 王志洋[3] 吐尔根·依布拉音[1,2] 

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]新疆多语种信息技术重点实验室,乌鲁木齐830046 [3]中国科学院计算技术研究所、智能信息处理重点实验室,北京100190

出  处:《小型微型计算机系统》2012年第11期2551-2555,共5页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60663006)资助;国家自然科学基金重点项目(61032008)资助;国家工信部电子发展基金项目(工信部财(2009)453)资助

摘  要:维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高.Uyghur is an agglutinative language and has vast number of affixes,which has great influence on Uyghur-Chinese word alignment result.To solve this problem,this article proposes a method:represent Uyghur words with their morphological segmentation and use symbolized affixes which classified on phonetic harmony substitute for original forms.After preprocessing with this method,we align Uyghur-Chinese sentences which offered by Xinjiang Multilanguage Key Laboratory with GIZA++.Experimental result shows that this method played an important role on alignment results and improved the performance of translation from Uyghur to Chinese.

关 键 词:词对齐 维吾尔语 形态分析 GIZA++ 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象