检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:宋聚平[1] 王永成[1] 滕伟[1] 许欢庆[1]
出 处:《情报学报》2002年第2期130-133,共4页Journal of the China Society for Scientific and Technical Information
摘 要:目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明 。With the explosive growth of the WWW,search engine is becoming more and more important.A large amount of users are relying on search engine for interesting information.But now,after the user inputting the query,such search engines often result in a huge set of retrieved documents,many of which are irrelevant to the user.It is very difficult to sifting the specific document.On the other hand,robots cannot retrieve some important homepages.In this paper we present a search algorithm that based on processing the queue of the URL efficiently.According to the content of the papge,the HTML structure of the page and the hyperlinks among these pages,we evaluate the importance of these homepages.So the robot can adjust the order of our URL list.Preliminary experiments show significant improvements over the original search algorithm.
关 键 词:搜索引擎 超链接 ROBOT PAGERANK 搜索策略 搜索模块 搜索算法 优化算法
分 类 号:TP393.09[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38