一种基于MapReduce的频繁闭项集挖掘算法被引量：18

Closed Frequent Itemset Mining Based on MapReduce

机构地区：[1]南京大学计算机软件新技术国家重点实验室,南京210093

出　　处：《模式识别与人工智能》2012年第2期220-224,共5页Pattern Recognition and Artificial Intelligence

基　　金：国家自然科学基金项目(No.61035003;60875011;60721002);国家973计划项目(No.2010CB327903);科技部国际科技合作计划项目(No.2010DFA11030);江苏省自然科学基金项目(No.BK2010054)资助

摘　　要：频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式.当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路.文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法.该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤.在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比.Closed frequent itemset mining is an useful way for discovering association rules from data. Cloud computing infrastructure based on MapReduce provides a promising solution to address the problem. A parallel algorithm for mining closed frequent itemset is presented based on the Hadoop cloud computing platform. The method consists of four steps ： parallel counting, global F-List constructing, parallel mining of local closed frequent itemset and parallel filtrating of global closed frequent itemset. The experimental results validate the method and show that it is effective with a satisfied speedup.

关键词：云计算并行算法数据挖掘频繁闭项集 MAPREDUCE

分类号：TP311.13[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于MapReduce的频繁闭项集挖掘算法被引量：18

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种基于MapReduce的频繁闭项集挖掘算法 被引量：18

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种基于MapReduce的频繁闭项集挖掘算法被引量：18