贲兴龙

作品数:1被引量:2H指数:1
导出分析报告
供职机构:中国电子科技集团第二十八研究所更多>>
发文主题:抽取方法标点符号信息过载信息处理技术科技情报更多>>
发文领域:自动化与计算机技术更多>>
发文期刊:《计算机与数字工程》更多>>
-

检索结果分析

署名顺序

  • 全部
  • 第一作者
结果分析中...
条 记 录,以下是1-1
视图:
排序:
一种面向大规模网页去重的三层分布式架构被引量:2
《计算机与数字工程》2015年第10期1751-1755,共5页贲兴龙 贾大文 袁林 
去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复杂度上。论文提出一种面向大规模网页去重的三层分布式架构,其利用本地缓存、分布式缓存及分布式索引高效...
关键词:网页去重 网络爬虫 分布式架构 
检索报告 对象比较 聚类工具 使用帮助 返回顶部