基于Heritrix的商品信息搜索的网络爬虫系统的设计  被引量:2

Commodity Information Search Web Crawler System Design Based on Heritrix

在线阅读下载全文

作  者:袁小洁[1,2] 

机构地区:[1]贵州大学计算机科学与信息学院,贵阳550025 [2]贵州省贸易经济学校,贵阳550018

出  处:《电脑编程技巧与维护》2012年第22期74-74,81,共2页Computer Programming Skills & Maintenance

摘  要:探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。This paper discusses on the construction of open source software Heritrix system for commodity information crawler system,in view of the Heritrix open source reptiles project problems and the characteristics of the goods collection, this project designed the directional grab contains a particular content page classes,so as to improve Heritrix,and introducing ELFHash in URL hash algorithm in order to improve the efficiency of grab,to face commodity search system and data mining provides reliable datasource.

关 键 词:HERITRIX 网络爬虫 爬虫 商品信息采集 

分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象