基于MapReduce的并行关联规则增量更新算法  被引量:12

Incremental Updating Algorithm of Parallel Association Rule Based on MapReduce

在线阅读下载全文

作  者:程广[1] 王晓峰[1] 

机构地区:[1]上海海事大学信息工程学院,上海201306

出  处:《计算机工程》2016年第2期21-25,32,共6页Computer Engineering

摘  要:为解决传统关联规则挖掘算法在大数据环境下运行效率较低的问题,基于频繁模式增长(FP-growth)算法,提出一种面向大数据的并行关联规则增量更新算法。利用MapReduce编程模型与云计算平台,对FP-growth算法各步骤进行并行化处理。在增量更新挖掘过程中,使用已有的频繁项集和1-项集对新增事务集构建频繁模式树,通过扫描原始事务数据库完成频繁项集的更新。实验结果表明,与传统关联规则挖掘算法相比,该算法具有更高的挖掘效率和扩展性,适用于海量数据的关联规则增量挖掘。Under the environment of big data,the traditional association rule mining algorithms have lower efficiency caused by the rapidly increasing data. Aiming at the problem,this paper proposes a parallel incremental updating algorithm of association rules based on the Frequent Pattern Grow th( FP-growth) algorithm. Each step of incremental FP growth algorithm is realized to parallel process by using the MapReduce programming model and cloud computing platform. In the updating process,it uses the existing incremental of frequent itemsets and 1-set to construct frequent pattern tree of the new transaction after completing frequent itemsets updating by scanning the original transaction database one time. Experimental results show that the algorithm has better efficiency and expansibility compared with the traditional association rule mining algorithm,therefore it can be applied to the association rules incremental mining of massive data.

关 键 词:大数据 云计算 MapReduce编程模型 频繁项集 增量更新 关联规则 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象