高维Turnstile型数据流聚类算法  被引量:6

An Efficient Clustering Algorithm for High Dimensional Turnstile Data Streams

在线阅读下载全文

作  者:周晓云[1] 张净[1] 孙志挥[1] 

机构地区:[1]东南大学计算机科学与工程系,南京210096

出  处:《计算机科学》2006年第11期14-17,37,共5页Computer Science

基  金:国家自然科学基金(70371015);教育部高等学校博士学科点科研基金(20040286009);江苏省高校自然科学计划一般项目(05KJB520022)资助

摘  要:现有数据流聚类算法只能处理Ti me Series和Cash Register型数据流,并且应用于高维数据流时其精度不甚理想。提出针对高维Turnstile型数据流的子空间聚类算法HT-Stream,算法对数据空间进行网格划分,在线动态维护网格单元信息,采用倾斜时间窗口存储统计信息,根据用户指定时间跨度离线输出聚类结果。基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性。Previous method only can deal with Time Series and Cash Register data stream. Moreover, the efficiency of clustering high dimensional data stream is not very satisfactory. In this paper a novel algorithm for clustering Turnstile data stream named HT-Stream is presented. HT-Stream partitions the space into grids, summarizes statistical information over data stream according to the tilted time window, and finds the clusters offline. HT-Stream can resolve high dimensional clustering problem and discover clusters with arbitrary shape. The experimental results on real datasets and synthetic datasets demonstrate promising availabilities of the approach.

关 键 词:数据流 子空间聚类 高维 倾斜时间窗口 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象