一种开采频繁项目集集合的快速算法  被引量:1

An Efficient Algorithm for Mining Frequent Itemsets

在线阅读下载全文

作  者:赵栋[1] 卢炎生[1] 

机构地区:[1]华中科技大学计算机科学与技术学院,湖北武汉430074

出  处:《计算机工程与科学》2005年第10期53-54,共2页Computer Engineering & Science

基  金:"十五"国家科技攻关计划资助项目(2001BA102A04-02-03)

摘  要:在大的数据集合中,开采其中的频繁项目集集合是数据挖掘中极具挑战的重要任务。已经有很多高效的算法被总结了出来。本文提出了一种思想,即开采频繁项目集集合的一个子集,我们称之为频繁无析取规则集集合,而并非开采完全的频繁项目集集合。我们证明能借助它不读取数据库而还原出频繁项目集集合的全集和它们的支持度。本文还提出了一个开采无析取规则集集合的算法HOPE-II,实验结果显示了其高效性。我们将它与另一种称为频繁封闭集的精简集进行对比,几乎所有的实验结果都显示使用无析取规则集集合比使用封闭集集合来开采频繁项目集集合更有效。Given a large set of data, extracting frequent itemsets in this set is a challenging job in data mining. Many efficient algorithms have been proposed in the literature. The idea presented in this paper is to extract a condensed representation of the frequent itemsets called disjunction-free sets, instead of extracting the whole frequent itemsets collection. We show that this condensed representation can be used to regenerate all frequent iternsets and their exact frequencies without any access to the original data. An algorithm, HOPE-Ⅱ, is presented to extract the frequent disjunction-free sets and practical experiments show that this representation can be extracted very efficiently. We compare it with another representation in the literature called frequent closed sets, and in nearly all the experiments we have done, the disjunction-free sets have been extracted much more efficiently than the frequent closed sets.

关 键 词:数据挖掘 精简集 频繁项目集 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象