几种基于词典的中文分词算法评价  被引量:4

THE EVALUATION OF SEVERAL ALGORITHMS FOR DICTIONARY-BASED CHINESE WORD SEGMENTATION

在线阅读下载全文

作  者:李丹宁[1] 李丹[1] 王保华[2] 马新强[2] 

机构地区:[1]贵州科学院,贵阳550001 [2]贵州大学信息工程学院,贵阳550003

出  处:《贵州科学》2008年第3期1-8,共8页Guizhou Science

基  金:贵州省科技厅年度计划项目;黔科合(2004)JN057资助

摘  要:基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问题.改进了整词二分法,极大地提高了速度.结合哈希索引和PATRICIA tree搜索算法,提出了一个综合最优化的中文分词系统.Several typical Chinese word segmentation algorithms based on dictionary were discussed in this paper,and existing problems of these algorithms were identified.The method of binary-seek-by-word was improved through optimizing the usage of computers cache.Combining with the hash index and the PATRICIA tree search mechanisms,an optimized comprehensive Chinese word segmentation method was proposed.

关 键 词:中文信息处理 自动分词 分词词典 缓存优化 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象