一种面向高速度数据流的频繁模式挖掘算法  

Mining Frequent Patterns over High Speed Data Streams

在线阅读下载全文

作  者:杨慧[1] 刘红岩[1] 何军[1] 杜小勇[1] 

机构地区:[1]中国人民大学信息学院,北京,100872 清华大学经济管理学院,北京,100084 中国人民大学信息学院,北京,100872 中国人民大学信息学院,北京,100872

出  处:《计算机研究与发展》2007年第z3期273-278,共6页Journal of Computer Research and Development

基  金:国家自然科学基金项目(70471006,70621061,60496325,60573092)

摘  要:数据流频繁模式挖掘是从实时、连续、有序的数据序列中寻找频繁模式的过程,以往的相关研究通常将该过程分为两个阶段:首先监测数据流中各模式的频率,由于数据流环境对空间与时间的限制,需要对监测模式进行剪裁,因而频率的计算和剪裁需要重复进行;当用户提交查询时,从监控的模式中筛选出满足要求的输出.现有研究都注重解决如何对观测对象进行剪裁,而事实上在计算模式频率时,数据项集中不同数据项间的组合使得频率计算非常耗时.因此,对于高速数据流,算法通常没有足够的时间来处理数据流中的每个事务,这会影响挖掘结果的正确性.针对这一问题提出了一种新的面向高速数据流的频繁模式挖掘算法Delay. 在Delay算法中将模式频率的统计延迟到第2阶段进行,第1阶段只记录"必要信息",这样大大提高了算法所能处理的数据流流动速度的上限.实验结果表明,算法在效率上优于已有算法,LossyCounting和FDPM,尤其是在处理长数据项集数据流时优势更为明显.

关 键 词:数据流 数据流挖掘 频繁模式挖掘 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象