面向大规模流数据的可扩展分布式实时处理方法被引量：2

A Scalable and Distributed Method for Processing Large-Scale Data Streams in Real-Time

作　　者：蔡斌雷[1] 郭芹[2] 朱世伟[1] 任家东[3] CAI Binlei GUO Qin ZHU Shiwei REN Jiadong(Information Research Institute, Shandong Academy of Sciences, J inan 250014, China Quancheng College, University of Jinan, Yantai 265600, China College of Information Science and Engineering, Yanshan University, Qinhuangdao 066004,China)

机构地区：[1]山东省科学院情报研究所,山东济南250014 [2]济南大学泉城学院,山东烟台265600 [3]燕山大学信息科学与工程学院,河北秦皇岛066004

出　　处：《青岛科技大学学报（自然科学版）》2016年第5期584-590,共7页Journal of Qingdao University of Science and Technology:Natural Science Edition

基　　金：国家自然科学基金资助项目(61170190);山东省科技发展计划项目(2014GGX101013;2015GGX101032)

摘　　要：MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求。对此提出一种面向大规模流数据的可扩展、分布式实时处理方法。该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力。实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性。MapReduce is a widely used technique for processing massive datasets,however,it is unable to support the real-time processing for large scale data streams.In this paper,we studied a scalable and distributed method,called SDRT-MR,based on MapReduce model,to process large scale data streams in real time.To lower the I/O cost and efficiently utilize CPU,a memory caching mechanism using Hash B＋tree is adopted to optimize the processing mechanism of intermediate results.To boost incremental one-pass analytics of data streams processing,we develop dynamic incremental hash techniques to support fast in-memory processing,simultaneously employ an efficient technique to identify frequent keys.Our experimental results on synthetic datasets show that SDRT-MR has higher real-time performance and better scalability.

关键词：大数据分布式计算流数据处理 MAPREDUCE

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向大规模流数据的可扩展分布式实时处理方法被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

面向大规模流数据的可扩展分布式实时处理方法 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

面向大规模流数据的可扩展分布式实时处理方法被引量：2