Hadoop平台下的并行Web日志挖掘算法  被引量:6

Parallel Web Log Mining Algorithm in Hadoop Platform

在线阅读下载全文

作  者:周诗慧[1] 殷建[1] 

机构地区:[1]山东大学(威海)机电与信息工程学院,山东威海264209

出  处:《计算机工程》2013年第6期43-46,共4页Computer Engineering

摘  要:当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。The current Web data mining based on single node is developed to a time and space bottleneck. In order to solve these problems, this paper presents a parallel FP-growth algorithm to do Web log mining using Hadoop Distributed File System(HDFS) and MapReduce parallel computing model. Experimental results for different size datasets prove that the proposed algorithm reveals good speedup and has better performance than traditional FP-growth algorithm.

关 键 词:Hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 HADOOP分布式文件系统 并行FP-growth算法 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象