一种基于Bigram二级哈希的中文索引结构  被引量:2

A Chinese index structure based on Bigram and two level hashes

在线阅读下载全文

作  者:孙德才[1] 王晓霞[1] 

机构地区:[1]渤海大学,辽宁锦州121013

出  处:《电子设计工程》2014年第12期1-4,共4页Electronic Design Engineering

基  金:国家自然科学基金项目(61173142);辽宁省社科联2014年度辽宁经济社会发展立项重点课题(2014lslktzdian-04)

摘  要:为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。In order to enhance off-line string matching speed by constructing a high speed index structure for Chinese, a new index structure based on Bigram and two level hashes is proposed in this paper. First, GB2312 code is empolyed to process Chinese and Bigrams are adopted as vocabulary terms in the new index. Second, a two level hashes scheme is designed as the structure of vocabulary. Experimental data shows that new index's matching speed is more than 4 times as against that of word index though its space consumption is more than 2 times as against that of word index. The results demonstrate that the new index has the advantage of speed in Chinese string matching.

关 键 词:串匹配 中文 倒排索引 

分 类 号:TN91[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象