检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:孙庆鑫[1] 雷迎春 龚奕利[1] SUN Qingxin 1,LEI Yingchun 2,GONG Yili 1(1.Computer School,Wuhan University,Wuhan 430072,China;2.Beijing Daowoo Time Technology Co.,Ltd.,Beijing 100020,Chin)
机构地区:[1]武汉大学计算机学院,武汉430072 [2]北京达沃时代科技股份有限公司,北京100020
出 处:《计算机工程》2018年第6期24-28,共5页Computer Engineering
基 金:国家自然科学基金青年科学基金(61100020);国家自然科学基金面上项目(61572373)
摘 要:为解决哈希分布表转换为随机分布表后连接效率低的问题,提出一种大规模并行处理数据库中哈希表的并行连接操作算法。根据共享存储环境下哈希分布表的数据块分布特性,并结合随机读取的扫描优势,利用数据多副本分布式存储提高本地读比率,且不损失数据块哈希分布的特性。TPC-H标准测试结果表明,与传统并行连接算法相比,该算法能有效提高连接操作效率,连接查询语句最高可降低30%的响应时间。In order to solve the problem of low connection efficiency after the Hash distribution table is converted into a random distribution table,a parallel connection operation algorithm for Hash tables in Massively Parallel Processor(MPP) database is presented.According to the data block distribution characteristics of the hash distribution table in the shared storage environment,combining with the scanning advantage of random reading,data multiple copies distributed storage is used to improve the local reading rate without losing the characteristics of data hash distribution.TPC-H standard test results show that compared with the traditional parallel connection algorithm,this algorithm can effectively improve the connection operation efficiency and reduce the response time of the connection query up to 30%.
关 键 词:连接操作 并行连接 大规模并行处理 大数据 在线分析处理
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200