检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:熊健 翟紫姹 XIONG Jian;ZHAI Zi-cha(School of Economics and Statistics,Guangzhou University,Guangzhou 510006,China)
机构地区:[1]广州大学经济与统计学院,广东广州510006
出 处:《广州大学学报(自然科学版)》2019年第5期27-33,共7页Journal of Guangzhou University:Natural Science Edition
摘 要:中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.Chinese words segmentation is the premise and basis of Chinese information processing.This paper puts forward a method of segmentation based on part of speech tagging and sense disambiguation for ambiguity sets,which combines the advantage of method based on the dictionary and method based on statistics for Chinese words segmentation.This method segments word based on FMM,RMM and HMM at first.Then it compares the segmentation results with each other,and output the optimal segmentation by word information and the definition of optimal estimation function of part of speech tagging.Experimental results show that this method is able to reduce the error of sense disambiguation.
关 键 词:分词 分词消歧 最大匹配法 隐马尔可夫模型 词性标注
分 类 号:O212.1[理学—概率论与数理统计]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.218.181.138