大数据环境下数据读取关键技术研究  被引量:5

Research on Data Reading Techniques Based on Big Data Environment

在线阅读下载全文

作  者:谢怡[1] 王航[1] 刘新瀚[1] 陈梓洋 孙知信[1] 

机构地区:[1]南京邮电大学宽带无线通信与传感网技术教育部重点实验室,江苏南京210003

出  处:《计算机技术与发展》2015年第2期113-116,共4页Computer Technology and Development

基  金:国家自然科学基金资助项目(60973140;61170276;61373135);江苏省产学研项目(BY2013011);江苏省科技型企业创新基金项目(BC2013027);江苏省高校自然科学研究重大项目(12KJA520003)

摘  要:针对大数据环境下数据读取面临的主要挑战,文中重点研究了分布式文件系统中数据读取关键技术。根据数据存放结构的不同,从数据加载、查询处理和存储空间利用三个方面分析比较行存储、列存储和行列混合存储的优缺点和面临的挑战,重点介绍列存储中涉及到的压缩和物化技术,具体分析了存储压缩中经常运用的行程编码算法、词典编码算法、位向量编码算法和元组重构中运用的延迟物化技术。通过分析现有技术存在的问题,探讨相关的解决方案,并展望了未来研究的发展方向。Under the big data environment, data reading has faced enormous challenges. In this paper ,focus on the key technologies of data in the distributed file system. Analyze the row-storage, column-storage, hybrid-storage according to data placement structure from data loading, query processing and storage space utilization. Besides, it introduces materialization techniques used in column-storage including run-length encoding, dictionary encoding ,bit-vector encoding and lazy decompression. Meanwhile, by analysis of the present problem, discuss the relative solutions, and has a prospect of future development.

关 键 词:大数据 列存储 压缩 物化技术 

分 类 号:TP31[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象