一种高性能分布式Web Crawler的设计与实现  被引量:6

Design and Implementation of a Distributed High-Performance Web Crawler

在线阅读下载全文

作  者:张岭[1] 叶允明[1] 宋晖[1] 于水[1] 马范援[1] 

机构地区:[1]上海交通大学计算机科学与工程系,上海200030

出  处:《上海交通大学学报》2004年第1期59-61,共3页Journal of Shanghai Jiaotong University

基  金:上海市科委重点基础研究项目(02DJ14045)

摘  要:介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.Web crawler is the core component of WWW search engine and information retrieval systems. This paper discussed the architecture of a distributed Web crawler and the design ideas about the Web crawler data structure, system modules and related algorithms. The key problems encountered in the design and implementations were also commented, and the solutions to those problems were presented.

关 键 词:Web信息搜集器 分布式系统 搜索引擎 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象