基于MapReduce的数据聚集运算算法  被引量:6

MapReduce-based data aggregation algorithms

在线阅读下载全文

作  者:冷芳玲[1] 鲍玉斌[1] 高伟[1] 于戈[1] 

机构地区:[1]东北大学信息科学与工程学院,沈阳110004

出  处:《中国科技论文在线》2011年第7期469-475,481,共8页

基  金:国家自然科学基金资助项目(61033007);中央高校基本科研业务费专项资金资助项目(N100304005);国家高技术研究发展计划(863计划)资助项目(2009AA01Z131)

摘  要:为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。To improve the computing efficiency of massive data in data warehouses,aggregation computing is one of the most typical data pre-processing methods.But it requires enormous computing power and storage capacity.So a set of MapReduce-based aggregation algorithms for massive data are proposed,mainly including data selection,projection and equivalent joint,etc.And the counting,summing,and averaging operations are implemented.They make a family of aggregation operation algorithms.Experiments show that the algorithms make full use of the cluster computing power and storage capacity,thus greatly improving the efficiency of the aggregation operations,and enhancing the query efficiency on massive data based on the aggregation results.

关 键 词:数据仓库 聚集运算 MAPREDUCE 联机分析处理 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象