基于条件随机场的中文领域分词研究  被引量:14

Chinese word segmentation research based on Conditional Random Field

在线阅读下载全文

作  者:朱艳辉[1] 刘璟[1] 徐叶强[1] 田海龙[1] 马进[1] ZHU Yanhui;LIU Jing;XU Yeqiang;TIAN Hailong;MA Jin(School of Computer and Communication, Hunan University of Technology, Zhuzhou, Hunan 412007, China)

机构地区:[1]湖南工业大学计算机与通信学院,湖南株洲412007

出  处:《计算机工程与应用》2016年第15期97-100,共4页Computer Engineering and Applications

基  金:国家自然科学基金(No.61170102);国家社科基金资助项目(No.12BYY045);湖南省教育厅重点项目(No.15A049)

摘  要:针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果 F值分别提升了7.6%和8.7%。According to the Conditional Random Field for Chinese word segmentation, the field is hard to adaptive. Acombination of CRF and domain dictionary is proposed to improve the field adaptability, and for eliminating ambiguity,this paper uses fixed word collocation, verb dictionary and word probability by the rule of word formation. The experientalresults show that this approach improves the accuracy and adaptability of the word segmentation. F value of the segmentationresults in computer and medical fields is increased by 7.6% and 8.7%.

关 键 词:中文分词 条件随机场 领域自适应 歧义消解 领域分词 逆向最大匹配算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象