大数据场景下数据存储格式对比研究  被引量:1

Comparative study on data storage formats in big data scenarios

在线阅读下载全文

作  者:杨慧 程雪平 Yang Hui;Cheng Xueping(School of Data Science,Guangzhou Huashang College,Guangzhou 511300,China)

机构地区:[1]广州华商学院数据科学学院,广州511300

出  处:《现代计算机》2023年第18期53-59,共7页Modern Computer

基  金:广州华商学院2022年青年学术科研项目(2022HSXS086)。

摘  要:针对大数据场景下的数据存储格式,通过对比分析存储压缩比、读写性能和数据查询效率等方面的差异,从实验角度探究不同存储格式的优劣势。在实验中,选取了常见的数据存储格式进行了对比研究,包括文本格式、CSV格式、JSON格式、Parquet格式、ORC格式等。通过对比实验结果,得出了在不同场景下,不同的数据存储格式都有其适用性和局限性,需要综合考虑各方面因素选择合适的存储格式。本文的研究结果对于数据存储和处理的优化具有一定的指导意义和参考价值。This article focuses on data storage formats in big data scenarios,and explores the advantages and disadvantages of different storage formats from an experimental perspective by comparing and analyzing the differences in storage compression ratio,read and write performance,and data query efficiency.In the experiment,selected common data storage formats for comparative research,including text format,CSV format,JSON format,Parquet format,ORC format,etc.Through the analysis of comparative experimental results,concluded that different data storage formats have their applicability and limitations in different scenarios,and it is necessary to consider comprehensively various factors to choose a suitable storage format.The research results of this article have certain guiding significance and reference value for optimizing data storage and processing.

关 键 词:大数据 压缩 存储格式 ORC PARQUET 

分 类 号:TP333[自动化与计算机技术—计算机系统结构] TP311.13[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象