检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:袁小洁[1,2]
机构地区:[1]贵州大学计算机科学与信息学院,贵阳550025 [2]贵州省贸易经济学校,贵阳550018
出 处:《电脑编程技巧与维护》2012年第22期74-74,81,共2页Computer Programming Skills & Maintenance
摘 要:探讨以开源软件Heritrix体系构建的获取商品信息爬虫系统,针对Heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进Heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面向商品的搜索系统以及数据挖掘提供可靠的数据源。This paper discusses on the construction of open source software Heritrix system for commodity information crawler system,in view of the Heritrix open source reptiles project problems and the characteristics of the goods collection, this project designed the directional grab contains a particular content page classes,so as to improve Heritrix,and introducing ELFHash in URL hash algorithm in order to improve the efficiency of grab,to face commodity search system and data mining provides reliable datasource.
分 类 号:TP391.3[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117