支持多时间粒度的数据流上最频繁K项挖掘  被引量:1

Multiple Time Granularities Supported Mining Most Frequent K Items in Data Streams

在线阅读下载全文

作  者:舒平达[1] 陈华辉[1] 

机构地区:[1]宁波大学信息科学与工程学院,浙江宁波315211

出  处:《宁波大学学报(理工版)》2009年第4期500-505,共6页Journal of Ningbo University:Natural Science and Engineering Edition

摘  要:数据流最频繁K项挖掘是指在数据流中找出K个项,它们的支持数大于数据流中的其他项.已有的一些算法只能挖掘整个数据流的频繁K项,而无法找出距离最近的任意时间段内的最频繁K项.因此,提出一种基于多层概要结构的数据流最频繁K项挖掘算法MMF(K)_MS,新算法利用各层节点数目可变的HFVN框架结构来支持对不同时间粒度的查询,同时采用Count-Sketch数据结构来维护各层的概要信息,并通过实验验证了算法的有效性.Mining most frequent K items in data streams means finding K items whose frequencies are larger than other items in data streams.There have been numerous methods reported thus far concerning finding the most frequent K items in the whole data streams,but these methods are not effective when applied with arbitrary time interval.This paper proposes a new method,i.e.,MMF(K)_MS,to detect the most frequent K items based on hierarchical synopsis.MMF(K)_MS supports query in arbitrary time interval by using HFVN framework with variable number of node in every layer and using CountStretch data structure to maintain synopsis in each layer.The experiment is conducted,indicating the good efficiency of the proposed approach.

关 键 词:数据流 数据挖掘 最频繁K项 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象