基于词性标注与分词消歧的中文分词方法  被引量:3

Segmentation of Chinese word based on part of speech tagging and sense disambiguation

在线阅读下载全文

作  者:熊健 翟紫姹 XIONG Jian;ZHAI Zi-cha(School of Economics and Statistics,Guangzhou University,Guangzhou 510006,China)

机构地区:[1]广州大学经济与统计学院,广东广州510006

出  处:《广州大学学报(自然科学版)》2019年第5期27-33,共7页Journal of Guangzhou University:Natural Science Edition

摘  要:中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.Chinese words segmentation is the premise and basis of Chinese information processing.This paper puts forward a method of segmentation based on part of speech tagging and sense disambiguation for ambiguity sets,which combines the advantage of method based on the dictionary and method based on statistics for Chinese words segmentation.This method segments word based on FMM,RMM and HMM at first.Then it compares the segmentation results with each other,and output the optimal segmentation by word information and the definition of optimal estimation function of part of speech tagging.Experimental results show that this method is able to reduce the error of sense disambiguation.

关 键 词:分词 分词消歧 最大匹配法 隐马尔可夫模型 词性标注 

分 类 号:O212.1[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象