检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046
出 处:《计算机应用与软件》2012年第4期9-12,15,共5页Computer Applications and Software
基 金:国家自然科学基金项目(60763005);国家教育部;国家语委民族语言文字规范标准建设及信息化科研项目(MZ115-92)
摘 要:在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。For the section of non-word errors checking in Kazakh text,on the basis of summarising and concluding the errors checking methods and supported by a certain size Kazakh lexicon,in the article we use the characteristics of Kazakh and the stem segmentation program and syllable rules of Kazakh language to find the non-word errors from the text,and then provide the most possible candidate word with minimum edit distance algorithm.In the section of real-word error checking in Kazakh text,according to context information and adopting N-gram based language model,we carry out real-word error checking by using ternary grammar model of local connection co-occurrence probability of the text,and then use the edit distance-based pattern matching method to provide error-correction suggestions to the errors of real words.Experimental results show that efficiency of error checking and error correction of this system is fairly good,the experiment scheme is feasible.
关 键 词:文本自动校对 哈萨克语 最小编辑距离 N元语法 模式匹配
分 类 号:TP399[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.16