N个最频繁项集挖掘算法  被引量:6

Mining Algorithms of N-Most Frequent Itemsets

在线阅读下载全文

作  者:陈晓云[1] 胡运发[2] 

机构地区:[1]福州大学数学与计算机科学学院,福州350002 [2]复旦大学计算机与信息技术系,上海200433

出  处:《模式识别与人工智能》2007年第4期512-518,共7页Pattern Recognition and Artificial Intelligence

基  金:国家自然科学基金(No.60473070);福建省自然科学基金(No.S0650013)

摘  要:频繁项集挖掘算法的计算复杂性和生成的频繁项集数量随着事务集项数的增加呈指数增长,最小支持度阈值成为控制这种增长的关键.然而,实际应用中仅使用支持度阈值难以有效控制频繁项集的规模.为此定义 N 个最频繁项集挖掘问题,并提出基于支持度阈值动态调整策略的宽度优先搜索算法 NApriori 和深度优先搜索算法IntvMatrix 挖掘 N 个最频繁项集.实验表明,本文的2种方法的效率比朴素方法高2倍以上,特别当 N 值较低时,本文方法的效率优势更为明显.The computing complexity of the frequent itemsets mining algorithm and the number of frequent itemsets are increased exponentially with the number of items in a transaction set. The minimum support threshold becomes a key to control such an increase . However , in practical application it will be difficult to control frequent itemsets scale, if only support threshold is used. The problem of N-most frequent itemsets is introduced, and the breadth-first-search algorithm NApriori and the depth-first-search algorithm IntvMatrix based on the dynamic minimum support threshold are presented to solve the problem. Experimental result shows the proposed algorithms are faster than naive method, and the improvement of the speed is remarkable when N is low.

关 键 词:数据挖掘 N个最频繁项集 支持度阈值 倒排矩阵 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象