基于最大熵的哈萨克语词性标注模型  被引量:4

Kazakh part-of-speech tagging method based on maximum entropy

在线阅读下载全文

作  者:桑海岩[1,2] 古丽拉.阿东别克 牛宁宁[1,2] 

机构地区:[1]新疆大学信息科学与工程学院,乌鲁木齐830046 [2]国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地,乌鲁木齐830046

出  处:《计算机工程与应用》2013年第11期126-129,165,共5页Computer Engineering and Applications

基  金:国家自然科学基金(No.61063025)

摘  要:最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。Maximum entropy model can make full use of context, agilely take multiple characteristics. This paper uses maxi- mum entropy model to part of speech tagging of Kazakh, designs feature template according to tackiness and rich shape, and joins the backward relying part of speech feature template. In this paper, the module is improved, which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence, and finally it selects a probability optimal sequence of part of speech tagging. The results show that feature template choice is correct, and the improved model accuracy rate reaches 96.8%.

关 键 词:自然语言处理 词性标注 最大熵模型 哈萨克语 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象