一种新的主题爬行算法  被引量:2

A New Algorithm of Focused Crawling Tan Siliang

在线阅读下载全文

作  者:谭思亮[1] 

机构地区:[1]中国科学院成都计算机应用研究所,四川成都610041

出  处:《微计算机信息》2007年第02X期193-195,共3页Control & Automation

基  金:国家"九七三"计划项目(2004CB318003)资助

摘  要:爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法。实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。This paper introduces a focused crawling algorithm which can improve its analysis algorithm and quality of seeds based on previous crawling. In our experiments, the crawler is tested in terms of the harvest rate. It turns out that the results are better than Breadth-first crawler, Best-first crawler based on content similarity and Best-first crawler based on PageRank metric.

关 键 词:主题爬行 Web分析 超链分析 搜索引擎 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象