流水行云:支持可扩展的并行分布式流处理系统  被引量:9

SPSPS: A Scalable Parallel-Distributed Stream Processing System

在线阅读下载全文

作  者:张鹏[1,2] 刘庆云 谭建龙[1,2] 李焱[3] 杜华明[2] 

机构地区:[1]中国科学院信息工程研究所,北京100093 [2]信息内容安全技术国家工程实验室,北京100093 [3]国家计算机网络应急技术处理协调中心,北京100029

出  处:《电子学报》2015年第4期639-646,共8页Acta Electronica Sinica

基  金:国家863高技术研究发展计划(No.2011AA010703);中国科学院战略性先导专项(No.XDA06030602);国家自然科学基金(No.61402464);中国博士后基金(No.2013M541076)

摘  要:数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数据流处理系统—流水行云,该系统根据有状态算子将查询拓扑划分为并行处理的子查询,并且通过有状态算子的分发器和收集器实现了数据流的保序,同时最大化减少并行处理的通信开销,不仅如此,结合负载均衡和重配置的可扩展技术使得该系统能够根据输入负载动态调整处理节点的负载和个数.60个节点组成的集群的实验证明了该系统的可扩展能力.The stream processing systems, whether centralized or disllibuted, have to overcome the single-node bottleneck. Moreover,their static configurations also make them either shortage or surplus of resources. To this end,this paper proposes a scal- able parallel-dislributed stream processing system named SPSPS. The system splits a query into parallel sub-queries according to stateful query operators to minimize the communication overhead in parallel processing, and achieves order-preserving tuple processing through the stateful operator's dislributor and collector. Moreover, the scalability techniques with load balancing and reconfigmration support effective adjustment of resources depending on the incoming load. The experiments on a cluster with 60 nodes prove the scalabilitv.

关 键 词:流处理系统 可扩展 有状态算子 负载均衡 重配置 

分 类 号:TN911.23[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象