检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]燕山大学信息科学与工程学院,河北秦皇岛066004 [2]北京中搜在线软件有限公司搜索引擎研发中心,北京100082
出 处:《小型微型计算机系统》2007年第7期1314-1317,共4页Journal of Chinese Computer Systems
基 金:辽宁省自然科学基金资助项目(2004D110)资助.
摘 要:本文给出一种以词语为索引项的索引文件存储结构,以及基于这种结构的索引查询算法.首先分析中文索引库的分布规律,接着在此基础上设计了一种逆序存储的三层索引结构,这种结构在创建索引时能根据词语频率自动调整存储顺序,最后给出一种基于自动机和逆向最大匹配的索引查询算法.实验系统T IFS将三层索引结构与B树、哈希方法在时间和空间复杂度方面进行对比,结果表明,对于大规模的中文文本检索,三层索引结构的综合效果最好.This paper presents a word-based-indexing file structure that applies to Chinese text,and an indexing search algorithm using this new structure. The distribution of the Chinese index corpus is analyzed firstly. Then a new three-layer indexing structure is presented, which is stored reversely and can adjust term order to its frequency. An index searching algorithm is also proposed,which is based on DFA and reverse maximum matching method (RMM). The experimental results in TIFS show that the new structure provides an effective way to search Chinese terms,compared with B-tree and hash table.
分 类 号:TP391.1[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.116