检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘斌
机构地区:[1]安徽科技学院信息与网络工程学院,安徽凤阳233100
出 处:《工业控制计算机》2018年第12期47-48,共2页Industrial Control Computer
基 金:安徽科技学院自然科学基金研究项目(ZRC2014422);安徽省高等教育振兴计划重大教学改革研究项目(2015zdjy121)
摘 要:针对Hadoop在处理海量小文件时,存在的性能问题进行了源码分析。研究了默认的输入格式TextInputFormat导致性能低下的原因,阐释使用CombineFileInputFormat作为输入格式的编程方法及其对性能提升的原因。以垃圾邮件训练集分析为例,介绍了海量小文件编程处理性能优化的具体实现方法。实验表明CombineFileInputFormat输入格式对计算性能的提升起到了显著的作用。This paper analyzes the problem from code analysis,studies the poor performance reason that use default input format-TextInputFormat,explains the programing method and the performace improvement reason that use CombineFileInputFormat as input format.Then the paper uses training set analysis of spam mail as example,to introduces how to optimize programming processing performance for massive amounts of small file.
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117