一种有效的数据流二次聚类算法  被引量:2

Effective Twice-Clustering Algorithm for Data Streams

在线阅读下载全文

作  者:胡学钢[1] 曹永照[1] 吴共庆[1] 

机构地区:[1]合肥工业大学计算机与信息学院,安徽合肥230009

出  处:《西南交通大学学报》2009年第4期490-494,共5页Journal of Southwest Jiaotong University

基  金:安徽省自然科学基金资助项目(050420207);安徽省高校青年教师科研资助计划(2005jq1012)

摘  要:为提高数据分布不规则和含有噪音时的数据流聚类质量,提出了一种有效的数据流二次聚类算法TCLUSA.该算法基于分区思想,采用DBSCAN方法对每块分区进行聚类,以得到的簇的均值点作为其代表点,再用k-m eans对所获得的代表点进行聚类,算法采用分层结构保存每次聚类获得的簇参考点,直至获得最终结果.理论分析和实验结果表明,TCLUSA算法能有效提高数据流的聚类质量.In order to enhance the quality of data stream clustering towards noisy and unbalanced data, an effective twice-clustering algorithm for data streams, TCLUSA for short, was proposed TCLUSA is based on the simple divide-and-conquer and separability theorems, uses DBSCAN ( density-based spatial clustering of applications with noise) to get the average point of each cluster as its local result, and then achieves the final result by clustering all the average points using the k- means. The algorithm keeps all the average points by a layered structure. The theoretical analysis and experimental results demonstrate that the proposed algorithm can enhance clustering quality efficiently when data distribution is abnormal or a high dimensional data stream is dealt with.

关 键 词:数据流聚类 密度簇参考点 k-均值参考点 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象