基于改进Kademlia协议的分布式爬虫  被引量:5

Distributed Crawler Based on the Improved Kademlia Protocol

在线阅读下载全文

作  者:陶耀东[1] 向中希 

机构地区:[1]中国科学院沈阳计算技术研究所,沈阳110168 [2]中国科学院大学,北京100049

出  处:《计算机系统应用》2016年第4期156-161,共6页Computer Systems & Applications

基  金:沈阳市科技计划(F14-056-7-00)

摘  要:随着互联网信息的爆炸式增长,搜索引擎和大数据等学科迫切需要一种高效、稳定、可扩展性强的爬虫架构来完成数据的采集和分析.本文借助于对等网络的思路,使用分布式哈希表作为节点间的数据交互的载体,同时针对网络爬虫自身的特点,对分布式哈希表的一种实现——Kademlia协议进行改进以满足分布式爬虫的需求.在此基础上设计并完善了具有可扩展性和容错性的分布式爬虫集群.在实际试验中,进行了单机多线程实验和分布式集群的实验,从系统性能角度和系统负载角度进行分析,实验结果表明了这种分布式集群方法的有效性.With the explosive growth of Internet information, researches on search engine and big data call for an efficient, stable and scalable crawler architecture to collect and analyze Internet data. Inspired by peer to peer network,we use distributed hash table as a carrier of communication between nodes, while a distributed hash table implementation—Kademlia protocol is modified and improved to meet the needs of the distributed crawler cluster's scalability and fault tolerance. In the experiments, we carried out multi-threaded experiment on single computer and node expansion experiment on distributed cluster. From system performance and system load point of view, the experimental results show the effectiveness of this kind of distributed cluster.

关 键 词:分布式哈希表 P2P 网络爬虫 KADEMLIA协议 去中心化 

分 类 号:TP393.02[自动化与计算机技术—计算机应用技术] TP391.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象