检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]山东大学(威海)机电与信息工程学院,山东威海264209
出 处:《计算机工程》2013年第6期43-46,共4页Computer Engineering
摘 要:当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。The current Web data mining based on single node is developed to a time and space bottleneck. In order to solve these problems, this paper presents a parallel FP-growth algorithm to do Web log mining using Hadoop Distributed File System(HDFS) and MapReduce parallel computing model. Experimental results for different size datasets prove that the proposed algorithm reveals good speedup and has better performance than traditional FP-growth algorithm.
关 键 词:Hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 HADOOP分布式文件系统 并行FP-growth算法
分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.17.157.68