搜索引擎中Robot搜索算法的优化  被引量:21

Improvement of the Robot Search Algorithm

在线阅读下载全文

作  者:宋聚平[1] 王永成[1] 滕伟[1] 许欢庆[1] 

机构地区:[1]上海交通大学电子信息学院,上海200030

出  处:《情报学报》2002年第2期130-133,共4页Journal of the China Society for Scientific and Technical Information

摘  要:目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。With the explosive growth of the WWW,search engine is becoming more and more important.A large amount of users are relying on search engine for interesting information.But now,after the user inputting the query,such search engines often result in a huge set of retrieved documents,many of which are irrelevant to the user.It is very difficult to sifting the specific document.On the other hand,robots cannot retrieve some important homepages.In this paper we present a search algorithm that based on processing the queue of the URL efficiently.According to the content of the papge,the HTML structure of the page and the hyperlinks among these pages,we evaluate the importance of these homepages.So the robot can adjust the order of our URL list.Preliminary experiments show significant improvements over the original search algorithm.

关 键 词:搜索引擎 超链接 ROBOT PAGERANK 搜索策略 搜索模块 搜索算法 优化算法 

分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象