基于半监督隐马尔科夫模型的汉语词性标注研究  被引量:7

Research on Chinese Part-of-speech Tagging Based on Semi Hidden Markov Model

在线阅读下载全文

作  者:韩霞[1] 黄德根[1] 

机构地区:[1]大连理工大学计算机学院,辽宁大连116024

出  处:《小型微型计算机系统》2015年第12期2813-2816,共4页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(61173100;61173101;61272375)资助

摘  要:提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.We present in this paper methods to improve semi HMM (Hidden Markov Model) based POS (part-of-speech} tagging of Chinese utilizing word similarity. First, we iteratively expand corpus beginning with the small size of training corpus to make semi su- pervised H/VIM learning. Thus, the effect of HMM tagging enhanced. Then, through the method of word similarity computation , each unknown word in the test corpus has candidate POS. At the same time,in order to get the annotated results,we select top two paths to conduct the second choice rather than just the optimal one. Experiments show that, this method has a 2. 60% increase compared to sim- ple HMM. Our model achieves an accuracy of 95. 65 %.

关 键 词:词性标注 词向量 词语相似度 迭代训练 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象