不确定数据流中频繁模式的并行挖掘算法  被引量:6

A PARALLEL MINING ALGORITHM WITH FREQUENT PATTERN FOR UNCERTAIN DATA STREAM

在线阅读下载全文

作  者:常艳芬[1] 王乐[2] 王辉兵[2] 

机构地区:[1]宁波大红鹰学院信息工程学院,浙江宁波315175 [2]大连理工大学创新实验学院,辽宁大连116024

出  处:《计算机应用与软件》2016年第9期20-23,162,共5页Computer Applications and Software

基  金:国家自然科学基金项目(61370200);宁波市自然科学基金项目(2013A610115;2014A610073);宁波市软科学研究计划项目(2014A10008);浙江省科技厅计划项目(2016C31128);浙江省教育厅一般科研项目(Y201533234)

摘  要:不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapReduce的并行挖掘算法。该算法需要两次MapReduce就可以从一个滑动窗口中挖掘出所有的频繁模式。实验中,多数情况下通过一次MapReduce就可以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。One of the research focuses of frequent pattern mining in uncertain dataset is to improve time and space efficiency of the mining algorithm, especially in the case of growing data amount increase at present, the practical applications have higher demand on the efficiency of mining algorithms as well. Aiming at the frequent pattern mining model for dynamic uncertain data streams, we propose a MapReduce-based parallel mining algorithm on the basis of the algorithm of AT-Mine. By invoking twice at most the MapReduce procedures this algorithm can mine all the frequent patterns from a sliding window. In experiments presented in the paper, in majority cases by only executing MapReduee once it is able mine all frequent itemset,and the stream data can he distributed uniformly to each node according to the size of their amount. Experiments validate that the proposed algorithm can raise the time efficiency one order of magnitude.

关 键 词:不确定数据 频繁模式 数据挖掘 并行算法 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象