挖掘数据流中的频繁模式  被引量:25

Mining Frequent Patterns in Data Streams

在线阅读下载全文

作  者:刘学军[1] 徐宏炳[1] 董逸生[1] 王永利[1] 钱江波[1] 

机构地区:[1]东南大学计算机科学与技术系

出  处:《计算机研究与发展》2005年第12期2192-2198,共7页Journal of Computer Research and Development

基  金:江苏省高技术基金项目(BG2004034);江苏省2004年度研究生创新计划基金项目(xm04-36)~~

摘  要:发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能·Finding frequent items is one of the most basic problems in the data streams. The limitless and mobility of data streams make the traditional frequent-pattern algorithm difficult to extend to data streams. According to data streams characteristic, inspired by the fact that the FP-growth provides an effective algorithm for frequent pattern mining, a new FP-DS algorithm for mining frequent patterns from data streams is proposed. In addition, the method, in which data streams are partitioned and frequent items are mined step by step, is adopted in the algorithm. So users may continuously get present frequent items online and any length frequent patterns for data streams can effectively be mined. Through introducing error ε, a large number of non-frequent items will be cut down and the storage space of the data streams can be reduced. Based on this algorithm, the error of support is guaranteed not to exceed ε. The analysis and experiments show that this algorithm has good performance.

关 键 词:数据流 频繁模式 FP—DS算法 流数据挖掘 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象