一种基于MapReduce的频繁闭项集挖掘算法  被引量:18

Closed Frequent Itemset Mining Based on MapReduce

在线阅读下载全文

作  者:陈光鹏[1] 杨育彬[1] 高阳[1] 商琳[1] 

机构地区:[1]南京大学计算机软件新技术国家重点实验室,南京210093

出  处:《模式识别与人工智能》2012年第2期220-224,共5页Pattern Recognition and Artificial Intelligence

基  金:国家自然科学基金项目(No.61035003;60875011;60721002);国家973计划项目(No.2010CB327903);科技部国际科技合作计划项目(No.2010DFA11030);江苏省自然科学基金项目(No.BK2010054)资助

摘  要:频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式.当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路.文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法.该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤.在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比.Closed frequent itemset mining is an useful way for discovering association rules from data. Cloud computing infrastructure based on MapReduce provides a promising solution to address the problem. A parallel algorithm for mining closed frequent itemset is presented based on the Hadoop cloud computing platform. The method consists of four steps : parallel counting, global F-List constructing, parallel mining of local closed frequent itemset and parallel filtrating of global closed frequent itemset. The experimental results validate the method and show that it is effective with a satisfied speedup.

关 键 词:云计算 并行算法 数据挖掘 频繁闭项集 MAPREDUCE 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象