基于倒排索引的文本相似搜索  被引量:4

A Similarity Search Algorithm for Text Based on Inverted-index

在线阅读下载全文

作  者:杨建武[1] 陈晓鸥[1] 

机构地区:[1]北京大学计算机研究所

出  处:《计算机工程》2005年第5期1-3,共3页Computer Engineering

摘  要:根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。For the dimensions sparseness of the text set, a new similarity search algorithm for text set is proposed, which is based on inverted-index. The algorithm can quickly gain a super-set for the targets by search on inverted-index. Experiments show that the algorithm is faster than the algorithm based on multi-dimension index for huge text set, while a little nicetylosing.

关 键 词:相似搜索 倒排索引 多维索引 文本相似搜索 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象