检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]聊城大学计算机学院,山东聊城252059 [2]山东省统计局数据管理中心,山东济南250014
出 处:《聊城大学学报(自然科学版)》2016年第1期102-106,共5页Journal of Liaocheng University:Natural Science Edition
基 金:山东省统计科研重点课题(KT15076);山东省高校智能信息处理与网络安全重点实验室(聊城大学);聊城大学科研基金项目资助
摘 要:Hadoop作为一个开源的并行计算框架,它提供了一个分布式的文件存储系统HDFS.然而,当处理海量小文件时会产生NameNode内存使用率较高、存取性能并不理想的问题,导致NameNode成为系统瓶颈,从而制约了文件系统的可扩展性.本文结合统计工作,提出了一种小文件存储的优化策略,在HDFS之上增加小文件预处理模块将文件进行分类,合并成Mapfile,并建立全局索引,另外该策略引入了索引预取机制和缓存机制.实验证明,该方法能有效提高大批量小文件的存取性能.As an open-source parallel computing framework, Hadoop provides a distributed file storage system HDFS. However, when dealing with small files ,it will cause NameNode consumes too much memory storage and the accessing performance not ideal, so NameNode become a bottleneck,which restrictes the file system scalability. Based on the statistical work, we put forward the optimization strategy for small files, adding mall file preprocessing module on HDFS will classify the files and merge them into MapFile ,we also establish the global index, in addition, introduces index prefetching mechanism and caching mechanism. Experiments show that this method can effectively improve the performance of accessing mass small files.
关 键 词:HDFS 小文件 预处理模块 索引预取 缓存机制
分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200