检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郑霞[1]
机构地区:[1]安阳师范学院计算机与信息工程学院,河南安阳455000
出 处:《安阳师范学院学报》2013年第5期53-56,共4页Journal of Anyang Normal University
摘 要:在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响。Selecting feature template is very important to Chinese part - of- speech tagging by using CRFs. In this paper we have designed two groups of feature templates, selected CTB, NCC and PKU as corpus, used CRF + + 0.53. Comparative experiments are performed on different feature templates and corpus and we have analyzed the template parameters. Conclusions are given bellow. ( 1 ) Accuracy rate of part - of - speech tag-ging is not proportionate to the size of context window. The part of speech of the current word is more closely related to the above-context than below -context. (2)it's more difficult to train model when there are more features. (3) Part of speech transition feature have influence on Chinese part - of - speech tagging.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.231