基于条件随机场的无监督中文词性标注  被引量:10

AN UNSUPERVISED CHINESE PART-OF-SPEECH TAGGING APPROACH USING CONDITIONAL RANDOM FIELDS

在线阅读下载全文

作  者:孙静[1] 李军辉[1] 周国栋[1] 

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006

出  处:《计算机应用与软件》2011年第4期21-23,46,共4页Computer Applications and Software

基  金:国家自然科学基金(60873150;60970056)

摘  要:中文词性标注是中文信息处理领域的一项基础工作。提出了一种基于条件随机场CRFs(Conditional Random Fields)模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs对语料进行迭代标注,逐步优化标注结果。并以宾州树库为实验语料,考察了不同规模的标注数据对模型性能的影响,在四份不同规模语料上的实验表明,词性标注正确率提高了1.88%~2.26%。Chinese part-of-speech(POS) tagging is an infrastructure of Chinese information processing.This paper proposes a new unsupervised tagging approach for Chinese POS using condition random fields(CRFs).First,by using dictionary we tag the POS of pre-segmented texts obtained and get elementary tagging corpus.Then we use CRFs to tag recursively on the corpus and gradually optimise the tagging result.In the paper we take the Pennsylvania TreeBank as the experimental corpus to survey the effect of tagging data with different size on model performance.According to the experiments using four different size corpus,our approach improves the POS tagging accuracy up to 1.88%~2.26%.

关 键 词:条件随机场 无监督学习 词性标注 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象