HERITRIX

作品数:76被引量:151H指数:6
导出分析报告
相关领域:自动化与计算机技术更多>>
相关作者:季士妍沈奇威朱敏苏希乐郭小丹更多>>
相关机构:中山大学北京邮电大学成都理工大学国家图书馆更多>>
相关期刊:更多>>
相关基金:国家自然科学基金长江学者和创新团队发展计划国家重点基础研究发展计划教育部科学技术研究重大项目更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=软件导刊x
条 记 录,以下是1-5
视图:
排序:
基于Heritrix的增量式网络爬虫研究被引量:3
《软件导刊》2013年第11期135-137,共3页张皓 周学广 
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。
关键词:HERITRIX HASH 网络爬虫 增量抓取 
基于Heritrix的网络爬虫研究与应用被引量:4
《软件导刊》2013年第5期123-125,共3页刘高军 夏景隆 
北京市教委科技发展计划项目(KM201310009001);国家科技支撑项目(2012BAH04F03)
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信...
关键词:网络爬虫 主题搜索引擎 HERITRIX URL地址去重 BKDRHash算法 
基于Heritrix的面向电子商务网站增量爬虫研究被引量:6
《软件导刊》2010年第7期38-39,共2页杨颂 欧阳柳波 
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对...
关键词:HERITRIX 增量抓取 爬行策略 电子商务 
一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例被引量:5
《软件导刊》2010年第5期47-49,共3页孙庚 冯艳红 于红 史鹏辉 
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域...
关键词:定题爬虫 搜索引擎 HERITRIX 
基于Heritrix的内容搜索引擎系统被引量:1
《软件导刊》2010年第4期129-130,共2页李丹 顾保磊 
目前现有的搜索引擎主要依托单一关键字搜索,且搜索内容重复率高,搜索结果缺少加工整理。从文本信息入手,致力于提出一种集搜索、内容分析、结果输出的一体化搜索系统。
关键词:HERITRIX XML XSLT 搜索引擎 
检索报告 对象比较 聚类工具 使用帮助 返回顶部