基于共享存储的MPP数据库连接执行研究  被引量:4

Research on MPP Database Connection Execution Based on Shared Storage

在线阅读下载全文

作  者:孙庆鑫[1] 雷迎春 龚奕利[1] SUN Qingxin 1,LEI Yingchun 2,GONG Yili 1(1.Computer School,Wuhan University,Wuhan 430072,China;2.Beijing Daowoo Time Technology Co.,Ltd.,Beijing 100020,Chin)

机构地区:[1]武汉大学计算机学院,武汉430072 [2]北京达沃时代科技股份有限公司,北京100020

出  处:《计算机工程》2018年第6期24-28,共5页Computer Engineering

基  金:国家自然科学基金青年科学基金(61100020);国家自然科学基金面上项目(61572373)

摘  要:为解决哈希分布表转换为随机分布表后连接效率低的问题,提出一种大规模并行处理数据库中哈希表的并行连接操作算法。根据共享存储环境下哈希分布表的数据块分布特性,并结合随机读取的扫描优势,利用数据多副本分布式存储提高本地读比率,且不损失数据块哈希分布的特性。TPC-H标准测试结果表明,与传统并行连接算法相比,该算法能有效提高连接操作效率,连接查询语句最高可降低30%的响应时间。In order to solve the problem of low connection efficiency after the Hash distribution table is converted into a random distribution table,a parallel connection operation algorithm for Hash tables in Massively Parallel Processor(MPP) database is presented.According to the data block distribution characteristics of the hash distribution table in the shared storage environment,combining with the scanning advantage of random reading,data multiple copies distributed storage is used to improve the local reading rate without losing the characteristics of data hash distribution.TPC-H standard test results show that compared with the traditional parallel connection algorithm,this algorithm can effectively improve the connection operation efficiency and reduce the response time of the connection query up to 30%.

关 键 词:连接操作 并行连接 大规模并行处理 大数据 在线分析处理 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象