一种中文分词词典新机制——双字哈希机制  被引量:108

A New Dictionary Mechanism for Chinese Word Segmentation

在线阅读下载全文

作  者:李庆虎[1] 陈玉健[1] 孙家广[1] 

机构地区:[1]清华大学计算机系,北京100084

出  处:《中文信息学报》2003年第4期13-18,共6页Journal of Chinese Information Processing

基  金:教育部专项基金资助项目 (2 0 0 1BA10 1A12 - 0 2 ) ;973计划资助 (2 0 0 2CB312 0 0 6 )

摘  要:汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。Chinese word segmentation is the preparation for Chinese Information Processing. As one basic component of Chinese word segmentation systems, the dictionary mechanism influences the speed and efficiency of segmentation significantly. In this paper, we provide a new dictionary mechanism named double-character-hash-indexing (DCHI). Compared with existing typical dictionary mechanisms (i.e. binary-seek-by-word, TRIE indexing tree and binary-seek-by-characters), DCHI improves the speed and efficiency of segmentation without increasing the space and time complication and maintenance difficulty.

关 键 词:汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率 

分 类 号:TP391.12[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象