一种适用于汉语的索引文件结构  

An Indexing File Structure Applying to Chinese

在线阅读下载全文

作  者:王丫[1] 蔡建山 唐勇[1] 

机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004 [2]北京中搜在线软件有限公司搜索引擎研发中心,北京100082

出  处:《小型微型计算机系统》2007年第7期1314-1317,共4页Journal of Chinese Computer Systems

基  金:辽宁省自然科学基金资助项目(2004D110)资助.

摘  要:本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统T IFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好.This paper presents a word-based-indexing file structure that applies to Chinese text,and an indexing search algorithm using this new structure. The distribution of the Chinese index corpus is analyzed firstly. Then a new three-layer indexing structure is presented, which is stored reversely and can adjust term order to its frequency. An index searching algorithm is also proposed,which is based on DFA and reverse maximum matching method (RMM). The experimental results in TIFS show that the new structure provides an effective way to search Chinese terms,compared with B-tree and hash table.

关 键 词:三层索引结构 汉语索引 信息检索 自适应算法 

分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象