一种支持高效检索的实时更新倒排索引策略  被引量:6

An On-Line Updates Inverted Index Strategy Which Supports High Efficient Searching

在线阅读下载全文

作  者:李栋[1] 史晓东[2] 

机构地区:[1]厦门大学软件学院,厦门361005 [2]厦门大学计算机科学系,厦门361005

出  处:《情报学报》2006年第1期16-20,共5页Journal of the China Society for Scientific and Technical Information

基  金:国家863计划基金项目(编号:2001AA114110,2002AA117010)

摘  要:最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息,必须加快倒排索引的更新。本文介绍了使用界标和增加,删除网页文档两种典型的倒排索引更新策略,并分析了它们的优缺点,提出了一种支持高效检索的实时更新倒排索引策略。这种策略综合了减少更新操作、加快实时更新和缩短用户查询响应时间等方面的优点,较好地适应了当前网络内容变化的特点。最后通过实验对这种策略进行了验证。Recent work on incremental crawling has enabled the document collection of a search engine be more synchronized with the changing World WMe Web. The inverted index should be updated more frequently than ever in order to enable users get the last information from the web through the search engine. This paper represents two strategies for updating inverted index, which are adding/deleting documents and using landmarks. Based on the analysis and synthesis of advantages and disadvantages of these two strategies, proposes an on-line updates inverted index strategy which supports the high efficient searching from viewpoints of decreasing update operations, speeding real-time update and shortening the response time of user's query. At last, verifies this strategy by experiments.

关 键 词:搜索引擎 倒排索引 更新策略 界标 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论] TU984.114[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象