基于Hadoop的海量统计小文件存取优化方案  被引量:2

Accessing Optimization of Massive Small Statistical Files based on Hadoop

在线阅读下载全文

作  者:付红阁 姜华[1] 张怀锋[2] 

机构地区:[1]聊城大学计算机学院,山东聊城252059 [2]山东省统计局数据管理中心,山东济南250014

出  处:《聊城大学学报(自然科学版)》2016年第1期102-106,共5页Journal of Liaocheng University:Natural Science Edition

基  金:山东省统计科研重点课题(KT15076);山东省高校智能信息处理与网络安全重点实验室(聊城大学);聊城大学科研基金项目资助

摘  要:Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.As an open-source parallel computing framework, Hadoop provides a distributed file storage system HDFS. However, when dealing with small files ,it will cause NameNode consumes too much memory storage and the accessing performance not ideal, so NameNode become a bottleneck,which restrictes the file system scalability. Based on the statistical work, we put forward the optimization strategy for small files, adding mall file preprocessing module on HDFS will classify the files and merge them into MapFile ,we also establish the global index, in addition, introduces index prefetching mechanism and caching mechanism. Experiments show that this method can effectively improve the performance of accessing mass small files.

关 键 词:HDFS 小文件 预处理模块 索引预取 缓存机制 

分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象