检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:桑海岩[1,2] 古丽拉.阿东别克 牛宁宁[1,2]
机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地,乌鲁木齐830046
出 处:《计算机工程与应用》2013年第11期126-129,165,共5页Computer Engineering and Applications
基 金:国家自然科学基金(No.61063025)
摘 要:最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。Maximum entropy model can make full use of context, agilely take multiple characteristics. This paper uses maxi- mum entropy model to part of speech tagging of Kazakh, designs feature template according to tackiness and rich shape, and joins the backward relying part of speech feature template. In this paper, the module is improved, which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence, and finally it selects a probability optimal sequence of part of speech tagging. The results show that feature template choice is correct, and the improved model accuracy rate reaches 96.8%.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:13.58.238.63