检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:米成刚[1,2] 杨雅婷[1] 周喜[1] 李晓[1] 杨明忠
机构地区:[1]中国科学院新疆理化技术研究所,乌鲁木齐830011 [2]中国科学院大学,北京100049 [3]哈密地区电子政务办公室,新疆维吾尔自治区哈密839000
出 处:《中文信息学报》2013年第5期173-178,190,共7页Journal of Chinese Information Processing
基 金:中国科学院战略性先导科技专项(XDA06030400);中国科学院"西部之光"人才培养计划"西部博士资助项目"(XBBS201216);中国科学院西部行动计划资助项目(KGZD-EW-501)
摘 要:维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。There are many Out-Of-Vocabulary words in Uyghur-Chinese machine translation,a large part of them are loan words(including person names,place names,et.al).This paper presents a novel method that recognition the Chinese loan words in Uyghur according to the feature that one loan word pronounce similar with its original word.This method training the existing corpus first,and getting the Uyghur Latin rules that use to recognize Chinese loan word in Uyghur;this paper Latin the Uyghur words according to the rules,Romanization of Chinese words,these transform the sounds similarity to strings similarity which is easy to quantification;proposed three models:Positionrelated Minimum Edit Distance model,Weighted Common Subsequence model and the fusion model that fused above two with parameters.The experimental results show that the fusion model considering strings’ global similarity and local similarity,so it gets the best recognition results.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.145