基于贝叶斯网络的二元语法中文分词模型  被引量:8

Bigram Chinese Word Segmentation Model Based on Bayesian Network

在线阅读下载全文

作  者:刘丹[1] 方卫国[1] 周泓[1] 

机构地区:[1]北京航空航天大学经济管理学院,北京100083

出  处:《计算机工程》2010年第1期12-14,共3页Computer Engineering

基  金:国家自然科学基金资助项目(70521001)

摘  要:提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74800字。This paper proposes Chinese word segmentation model based on Bayesian network, which adopts better smoothing algorithm to achieves word sense disambiguation and automatic recognition of foreign/domestic person names together. Viterbi algorithm is used in the model, which is demonstrated to be more efficient in word segmentation under acceptable accuracy and recall rate. Experimental results show that precision rate is 99.68% and recall rate is 99.7% in close test, with the soeed of 74 800 words per second.

关 键 词:中文分词 贝叶斯网络 VITERBI算法 N元语法 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象