机构地区:[1]数据工程与知识工程教育部重点实验室,北京100872 [2]中国人民大学信息学院,北京100872 [3]数据库与商务智能教育部工程研究中心,北京100872
出 处:《计算机学报》2024年第11期2691-2724,共34页Chinese Journal of Computers
基 金:国家自然科学基金(62072460,62076245,62172424,62276270);北京市自然科学基金(4212022)资助。
摘 要:爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究成果和标志性的实际产品已经出现.GPU数据库的技术发展按照GPU加速型和GPU内存型两种技术路线展开.两种技术路线都有相应的原型系统或产品出现.虽然两种GPU数据库的发展路线在实现上有所不同,但GPU数据库最基本的功能部分和核心技术是相似的,都有查询编译、查询优化、查询执行以及存储管理等功能.当前主流的数据传输方案除了PCIe之外,NVLink、RDMA和CXL等传输方案也为不同处理器之间的数据传输提供了更多的可能性.大多数GPU数据库使用列存储模型来存储数据,少数GPU数据库(如PG-Strom)对两种存储模型都支持.在列存储模型上利用压缩技术能减少数据的存储空间和传输时延.在GPU数据库上进行的压缩和解压的时间应该在整个数据处理的过程中占比很少.在GPU数据库上建立和维护索引不应该有很大的系统开销.JIT编译时间短、编译效率高,是GPU数据库编译的主流.操作符对数据库查询性能的影响非常明显,连接操作、分组聚集和OLAP运算符是目前研究最多的三个类型.目前大多数的研究中,连接和分组聚集算子通常结合在一起研究.在连接算子执行的过程中还和表的连接顺序结合在一起进行考虑.OLAP算子是GPU数据库中的又一个被大量研究的算子,GPU数据库在OLAP算子和模型方面持续受到研究者的关注.GPU数据库有三种查询处理模型,即行处理、列处理和向量化处理.向量化处理和列处理在实际系统中应用较多.由于GPU加速型数据库技术的发展,CPU-GPU协同处理模型上的查询方案与查询引擎也有一定数量的研究成果出现.当前GPThe explosive growth of data has increased the demands for data storage and processing.GPU databases,as an important branch of new hardware databases,have unique advantages in high-capacity and high-performance processing.As representatives of high-performance databases,GPU databases have attracted the attention of both academia and industry in recent years,with a number of representative research results and landmark practical products emerging.The technical development of GPU databases unfolds along two routes:GPU-accelerated and GPU-memory-based.Both routes have corresponding prototype systems or products.Although these development routes differ in implementation,the basic functionalities and core technologies of GPU databases are similar,including query compilation,query optimization,query execution,and storage management.The rapid development of new hardware offers more possibilities for data processing,storage,and transmission.Current mainstream data transmission solutions,besides PCIe,include NVLink,RDMA,and CXL,which provide more possibilities for data transfer between different processors.Most GPU databases use a columnar storage model for data storage,while a few GPU databases(such as PG-Strom) support both storage models.The columnar storage model can utilize compression techniques to reduce data storage space and transmission latency.Data compression schemes on GPU databases generally adopt lightweight compression methods,ensuring that the time spent on data compression and decompression constitutes a small portion of the overall data processing time and does not significantly increase the system's time overhead.Building and maintaining indexes on GPU databases should be lightweight and should not incur significant system overhead.Compilation time directly affects query performance,with JIT compilation being the mainstream for GPU database compilation due to its short compilation time and high efficiency.Operators significantly impact database query performance,with join operations,group aggregation,a
关 键 词:GPU数据库 数据压缩 算子优化 OLAP查询 查询处理
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...