检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:何晋一[1,2] 陈红英[1] 姜文斌[2] 张海波[2,3] 刘群[2]
机构地区:[1]四川大学软件学院,成都610065 [2]华南师范大学计算机学院,广州510631 [3]中国科学院计算技术研究所智能信息处理重点实验室,北京100190
出 处:《计算机系统应用》2011年第12期60-63,共4页Computer Systems & Applications
基 金:国家自然科学基金(60736014)
摘 要:根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率。在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%。According to the characteristics of Latin-Uighur, this paper analyzed the common spelling error types of Latin-Uighur, and then proposed a method which merged the minimum edit distance, directed graph model based lexical segmentation, trigram language model together. Finally, we implemented the automatically spelling check system of Latin-Uighur based on context. It has increased the accuracy of Latin-Uighur spelling check largely. The experiment on the Uighur corpus provided by Xinjiang University reaches an accuracy of 90.1%.
关 键 词:拉丁维文 最小编辑距离 有向图模型 词语切分 语言模型 上下文 拼写校对
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.149.7.172