检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]大连理工大学计算机学院,辽宁大连116024
出 处:《小型微型计算机系统》2015年第12期2813-2816,共4页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61173100;61173101;61272375)资助
摘 要:提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.We present in this paper methods to improve semi HMM (Hidden Markov Model) based POS (part-of-speech} tagging of Chinese utilizing word similarity. First, we iteratively expand corpus beginning with the small size of training corpus to make semi su- pervised H/VIM learning. Thus, the effect of HMM tagging enhanced. Then, through the method of word similarity computation , each unknown word in the test corpus has candidate POS. At the same time,in order to get the annotated results,we select top two paths to conduct the second choice rather than just the optimal one. Experiments show that, this method has a 2. 60% increase compared to sim- ple HMM. Our model achieves an accuracy of 95. 65 %.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.40