检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘汉兴[1] 朱梅阶[1] 刘财兴[1] 林旭东[1]
出 处:《计算机工程与设计》2008年第24期6370-6372,共3页Computer Engineering and Design
摘 要:中文分词的方法主要可分为基于规则和基于统计两大类:前者一般借助于词图的方法,将分词问题转化为最优路径问题,通常切分结果不惟一;后者利用统计模型对语料库进行统计,计算量较大,但准确率较高。对词图和N元语法进行了介绍,并结合两者实现了一种中文分词方法。该方法将词图中的最大概率路径作为中文句子分词的结果,其中涉及对语料库进行二元词频统计,设计了一个多级哈希结构的分词词典,实验数据表明该方法能有效地进行自动分词。There are two methods of Chinese word segmentation based on rule and statistics, the former usually use word graph and the latter use statistics model. Word graph and N-gram are introduced, and a system of Chinese word segmentation is constructed based on them. This system regards the maximum propability path in word graph as the result of word segmentation in Chinese sentence, bigram frequency is counted in corpus, and a word dictionary is designed with multilevel hash structure. The experimental data show that it car segment Chinese efficiently.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7