基于MapReduce的数据流频繁项集挖掘算法  被引量:5

An algorithm for mining frequent item sets from data streams based on MapReduce

在线阅读下载全文

作  者:朱付保[1] 白庆春 汤萌萌[1] 朱颢东[1] ZHU Fubao BAI Qingchun TANG Mengmeng ZHU Haodong(School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 45000)

机构地区:[1]郑州轻工业学院计算机与通信工程学院,郑州450002

出  处:《华中师范大学学报(自然科学版)》2017年第4期429-434,共6页Journal of Central China Normal University:Natural Sciences

基  金:国家自然科学基金项目(61201447);河南省科技攻关项目(122102210492);河南省教育厅科学技术研究重点项目(13A520368;13A520367);河南省高等学校青年骨干教师资助计划项目(2014GGJS-084);郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02);郑州轻工业学院博士科研基金资助项目(2010BSJJ038)

摘  要:针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.Aiming at the problems in traditional frequent item sets computing,such as low efficiency and large memory consumption,this paper presents a new frequent mining algorithm based on MapReduce parallel computing model.Firstly,in order to compress and transmit data,the data are divided into small pieces.Secondly,the calculation of frequent data distribution is in the load-balanced data nodes,which can improve the efficiency greatly.Finally,the dataset generated by each node are merged.The theoretical analysis and experimental results show that the algorithm is effective and feasible for dealing with the frequent item sets of data flow in parallel processing.

关 键 词:MAPREDUCE 频繁项集 数据流 并行计算 数据挖掘 

分 类 号:TP392[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象