李跃健

作品数:1被引量:2H指数:1
导出分析报告
供职机构:同济大学电子与信息工程学院计算机科学与技术系更多>>
发文主题:布隆过滤器哈希算法网络爬虫爬虫体系结构更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机技术与发展》更多>>
所获基金:上海市科委国际合作基金国家高技术研究发展计划更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-1
视图:
排序:
基于Larbin的网络爬虫体系结构的研究与改进被引量:2
《计算机技术与发展》2012年第7期147-150,170,共5页李跃健 朱程荣 
国家863高技术发展计划项目(2010AA122200);上海市科委国际合作项目(10510712500)
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,...
关键词:Larbin 爬虫 哈希算法 url去重 布隆过滤器 
检索报告 对象比较 聚类工具 使用帮助 返回顶部