汉语词性标注特征模板设定定量分析  

Quantitative Analysis about Feature Template in Chinese Part-of-Speech Tagging

在线阅读下载全文

作  者:郑霞[1] 

机构地区:[1]安阳师范学院计算机与信息工程学院,河南安阳455000

出  处:《安阳师范学院学报》2013年第5期53-56,共4页Journal of Anyang Normal University

摘  要:在利用条件随机场(CRFs)进行汉语词性标注时,特征模板的选取是非常重要的一个环节,本文设计了两组特征模板,选取Bakeoff2007的CTB、NCC、PKU三种语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响词性标注的模板参数。通过实验得出以下结论:(1)词性标注的准确率与特征窗口大小不成正比,上文对当前词的词性的影响比下文要大,当前词的词性与其紧邻的前后两个词关系紧密;(2)产生的特征数多的模板训练较难进行;(3)词性转移特征对准确率有一定的影响。Selecting feature template is very important to Chinese part - of- speech tagging by using CRFs. In this paper we have designed two groups of feature templates, selected CTB, NCC and PKU as corpus, used CRF + + 0.53. Comparative experiments are performed on different feature templates and corpus and we have analyzed the template parameters. Conclusions are given bellow. ( 1 ) Accuracy rate of part - of - speech tag-ging is not proportionate to the size of context window. The part of speech of the current word is more closely related to the above-context than below -context. (2)it's more difficult to train model when there are more features. (3) Part of speech transition feature have influence on Chinese part - of - speech tagging.

关 键 词:汉语词性标注 CRFS 特征模板 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象