检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]东北大学信息科学与工程学院,沈阳110004
出 处:《中国科技论文在线》2011年第7期469-475,481,共8页
基 金:国家自然科学基金资助项目(61033007);中央高校基本科研业务费专项资金资助项目(N100304005);国家高技术研究发展计划(863计划)资助项目(2009AA01Z131)
摘 要:为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。To improve the computing efficiency of massive data in data warehouses,aggregation computing is one of the most typical data pre-processing methods.But it requires enormous computing power and storage capacity.So a set of MapReduce-based aggregation algorithms for massive data are proposed,mainly including data selection,projection and equivalent joint,etc.And the counting,summing,and averaging operations are implemented.They make a family of aggregation operation algorithms.Experiments show that the algorithms make full use of the cluster computing power and storage capacity,thus greatly improving the efficiency of the aggregation operations,and enhancing the query efficiency on massive data based on the aggregation results.
关 键 词:数据仓库 聚集运算 MAPREDUCE 联机分析处理
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.3