基于Hadoop平台的并行特征匹配算法研究  被引量:5

Research of parallel feature matching algorithm based on Hadoop

在线阅读下载全文

作  者:李宝禄[1] 张伟[1,2] 

机构地区:[1]北京信息科技大学计算机学院,北京100101 [2]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101

出  处:《计算机应用研究》2014年第11期3320-3323,共4页Application Research of Computers

基  金:北京市优秀人才培养资助项目(2012D005007000009);北京信息科技大学网络文化与数字传播北京市重点实验室开放课题(ICDD201306);北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)

摘  要:很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。Many enterprises use Hadoop distributed file system to store mass data,but traditional virus scanning mainly face to single machine.This paper studied the way to make the core feature matching algorithm of virus scanning parallel to deal with the mass distributed data.With the frame of MapReduce,on the Hadoop platform,this paper realized efficient virus scanning of big data.Especially for the problem of low efficiency of processing mass small files on Hadoop platform,it incorporated small files,then used index to improve the efficiency of virus scanning of mass small files.The experimental results show that the parallel feature matching algorithm can reduce the processing time significantly,and is applicable to virus scanning of big data.

关 键 词:分布式文件系统 大数据 特征匹配 并行扫描 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象