检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046
出 处:《计算机工程与应用》2014年第15期120-124,共5页Computer Engineering and Applications
基 金:国家自然科学基金(No.61063025)
摘 要:柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。Research on the Kirghiz information processing plays an important role to whether Xinjiang Kirghiz can enter the information age, and inherit the national culture. Based on the traditional HMM theory, this paper uses the two stage dimension method and improves the HMM parameters calculation, data-smoothing and unknown words, so it can reflect the context dependence better. Meanwhile, stem extraction algorithm, which is based on automatic words segmentation dictionary, with rules and statistics method is used for the using of Kirghiz part-of-speech tagging system. Compared to traditional HMM, the improved method is effective to enhance accuracy.
关 键 词:柯尔克孜语 自动分词词典 隐马尔可夫模型(HMM) 词性标注
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.142.151.216