基于Heritrix的增量式网络爬虫研究  被引量:3

Research on Incremental Web Crawler Based on Heritrix

在线阅读下载全文

作  者:张皓[1] 周学广[1] 

机构地区:[1]海军工程大学信息安全系,湖北武汉430033

出  处:《软件导刊》2013年第11期135-137,共3页Software Guide

摘  要:通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。The working principle and structure analysis of open source web crawler Heritrix, for the Heritrix open source crawler can only climb to the site features, to improve Heritrix, increase the incremental crawler module based on Hash algorithm. Experiments show that the improved Heritrix can achieve, incremental crawl the webpage effectively.

关 键 词:HERITRIX HASH 网络爬虫 增量抓取 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象