检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]华南理工大学计算机科学与工程学院,广州510640 [2]五邑大学计算机学院,广东江门529020
出 处:《计算机应用研究》2011年第8期2905-2908,共4页Application Research of Computers
基 金:广东省自然科学基金资助项目(9451064101003233);广东省科技计划资助项目(2010B010600039);华南理工大学中央高校基本科研业务费专项资金资助项目(2009ZM0125;2009ZM0189;2009ZM0255)
摘 要:提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。最后,采用核心属性渗透理论对合成词标注词性,同时修正分词结果。实验结果表明,合成词识别正确率达到了91.60%,且分词修正效果良好。This paper proposed a Chinese compound-word recognition and word segmentation modification method.Firstly,the method got word strings from a text through by part-of-speech detecting,then generated word co-occurrence directed graph,borrowed the idea of the Bellman-Ford algorithm to search the longest paths with weight value satisfies the given condition for multiple starting points in the word co-occurrence directed graph,the word strings corresponding to the paths are considered as compound-words.Lastly,part-of-speech tagged of compound-words by head-feature percolation,and modified word segmentation results.Experimental results show that the proposed method achieves 91.16% upon the precision,and word segmentation modification achieving very good performance.
关 键 词:合成词 词共现有向图 词性标注 分词修正 自然语言处理
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.185