基于列存储的MapReduce分布式Hash连接算法  被引量:8

Hash Join in MapReduce Distributed Environment Based on Column-store

在线阅读下载全文

作  者:张滨[1] 乐嘉锦[2] ZHANG Bin1, LE Jia-Jin2(1Zhejiang University of Finance & Economics, Hangzhou 310018 ,China;2School of Computer Science and Technology, Donghua University, Shanghai 201620, Chin)

机构地区:[1]浙江财经大学,杭州310018 [2]东华大学计算机科学与技术学院,上海201620

出  处:《计算机科学》2018年第B06期471-475,505,共6页Computer Science

基  金:浙江省哲学社会科学规划课题基金(17NDJC179YB)资助

摘  要:大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化、软件系统开源化的特点。传统关系型数据库在对大数据进行操作时存在系统性能严重下降、计算效率提升有限以及可扩展性差等问题,因此引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce分布式Hash连接算法。首先,设计面向大数据的分布式计算模型,在设计的分片聚集并行连接的基础上,利用Hash连接以及动态探测方法优化了数据并行连接处理效率;然后,针对该算法开发了基于Hadoop的原型系统。通过实验证明,在大数据分析处理中,所提算法在执行时间和负载能力上都有很好的性能表现,也能提供良好的可扩展性。The characters of big data are volume,variety,value,velocity,and common hardware and open source.Aiming at the system inefficiency and limited scalability of traditional relational database in big data analysis,this paper presented an algorithm of Hash joins in MapReduce distributed environment based on column-store by introducing MapReduce computing model.First of all,this paper proposed the design of large data-oriented distributed computing models.Then,it proposed the partition aggregation and the heuristic optimization strategy to realize the implementation of Hash join algorithm.Lastly,the experiments evaluated execution time and load capacity.The results show that the proposed method is effective and can provid good scalability in big data analysis.

关 键 词:大数据 列存储 Hash连接 MAPREDUCE 并行计算 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象