检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:麦热哈巴·艾力[1,2,3] 王志洋[3] 吐尔根·依布拉音[1,2]
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]新疆多语种信息技术重点实验室,乌鲁木齐830046 [3]中国科学院计算技术研究所、智能信息处理重点实验室,北京100190
出 处:《小型微型计算机系统》2012年第11期2551-2555,共5页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(60663006)资助;国家自然科学基金重点项目(61032008)资助;国家工信部电子发展基金项目(工信部财(2009)453)资助
摘 要:维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高.Uyghur is an agglutinative language and has vast number of affixes,which has great influence on Uyghur-Chinese word alignment result.To solve this problem,this article proposes a method:represent Uyghur words with their morphological segmentation and use symbolized affixes which classified on phonetic harmony substitute for original forms.After preprocessing with this method,we align Uyghur-Chinese sentences which offered by Xinjiang Multilanguage Key Laboratory with GIZA++.Experimental result shows that this method played an important role on alignment results and improved the performance of translation from Uyghur to Chinese.
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145