Hadoop小文件编程处理的性能优化  被引量:1

Small File Performance Optimization Programming Processing Based on Hadoop

在线阅读下载全文

作  者:刘斌 

机构地区:[1]安徽科技学院信息与网络工程学院,安徽凤阳233100

出  处:《工业控制计算机》2018年第12期47-48,共2页Industrial Control Computer

基  金:安徽科技学院自然科学基金研究项目(ZRC2014422);安徽省高等教育振兴计划重大教学改革研究项目(2015zdjy121)

摘  要:针对Hadoop在处理海量小文件时,存在的性能问题进行了源码分析。研究了默认的输入格式TextInputFormat导致性能低下的原因,阐释使用CombineFileInputFormat作为输入格式的编程方法及其对性能提升的原因。以垃圾邮件训练集分析为例,介绍了海量小文件编程处理性能优化的具体实现方法。实验表明CombineFileInputFormat输入格式对计算性能的提升起到了显著的作用。This paper analyzes the problem from code analysis,studies the poor performance reason that use default input format-TextInputFormat,explains the programing method and the performace improvement reason that use CombineFileInputFormat as input format.Then the paper uses training set analysis of spam mail as example,to introduces how to optimize programming processing performance for massive amounts of small file.

关 键 词:文件 编程框架 云计算 HADOOP 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象