基于Heritrix的面向电子商务网站增量爬虫研究  被引量:6

在线阅读下载全文

作  者:杨颂[1] 欧阳柳波[1] 

机构地区:[1]湖南大学软件学院,湖南长沙410082

出  处:《软件导刊》2010年第7期38-39,共2页Software Guide

摘  要:针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。

关 键 词:HERITRIX 增量抓取 爬行策略 电子商务 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象