一种基于邻接表的最大频繁项集挖掘算法  被引量:15

A Maximal Frequent Itemsets Mining Algorithm Based on Adjacency Table

在线阅读下载全文

作  者:殷茗[1] 王文杰 张煊宇 姜继娇[2] YIN Ming;WANG Wenjie;ZHANG Xuanyu;JIANG Jijiao(Institute of Software and Microelectronics, Northwestern Polytechnical University, Xi’an 710072, China;Management School, Northwestern Polytechnical University, Xi’an 710072, China)

机构地区:[1]西北工业大学软件与微电子学院,西安710072 [2]西北工业大学管理学院,西安710072

出  处:《电子与信息学报》2019年第8期2009-2016,共8页Journal of Electronics & Information Technology

基  金:教育部人文与社会科学基金(16YJA630068,18YJA630043);航空科学基金(2016ZG53071);陕西省自然科学基础研究计划项目(2018JM7008);陕西省社会科学基金(2018S28);西北工业大学研究生种子基金(ZZ2018222)~~

摘  要:针对Apriori算法与FP-Growth算法在最大频繁项集挖掘过程中存在的运行低效、内存消耗大、难以适应稠密数据集的处理、影响大数据价值挖掘时效等问题,该文提出一种基于邻接表的最大频繁项集挖掘算法。该算法只需遍历数据库一次,同时用哈希表对邻接表进行辅助存储,减小了遍历的空间规模。理论分析与实验结果表明,该算法时间与空间复杂度较低,提高了最大频繁项集挖掘速率,尤其在处理稠密数据集时具有较好的优越性。To solve the problems of Apriori algorithm and FP-Growth algorithm in the process of mining the maximal frequent itemsets, which refer to inefficient operation, high memory consumption, difficulty in adapting to the process of dense datasets, and affecting the time-effectiveness of large data value mining, this paper proposes a maximal frequent itemsets mining algorithm based on adjacency table. The algorithm only needs to traverse the database once and adopts the hash table to store the adjacency table, which reduces the memory consumption. Theoretical analysis and experimental results show that the algorithm has lower time and space complexity and improves the mining rate of maximal frequent itemsets, especially when dealing with dense datasets.

关 键 词:数据挖掘 频繁项集 APRIORI FP-GROWTH FP-TREE 

分 类 号:TP311.5[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象