检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]渤海大学,辽宁锦州121013
出 处:《电子设计工程》2014年第12期1-4,共4页Electronic Design Engineering
基 金:国家自然科学基金项目(61173142);辽宁省社科联2014年度辽宁经济社会发展立项重点课题(2014lslktzdian-04)
摘 要:为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。In order to enhance off-line string matching speed by constructing a high speed index structure for Chinese, a new index structure based on Bigram and two level hashes is proposed in this paper. First, GB2312 code is empolyed to process Chinese and Bigrams are adopted as vocabulary terms in the new index. Second, a two level hashes scheme is designed as the structure of vocabulary. Experimental data shows that new index's matching speed is more than 4 times as against that of word index though its space consumption is more than 2 times as against that of word index. The results demonstrate that the new index has the advantage of speed in Chinese string matching.
分 类 号:TN91[电子电信—通信与信息系统]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.70