一种优化的基于网格的聚类算法被引量：6

Optimized Cell-based Clustering Algorithm

机构地区：[1]沈阳建筑大学计算中心,辽宁沈阳110168 [2]沈阳建筑大学信息与控制工程学院,辽宁沈阳110168 [3]东北大学信息科学与工程学院,辽宁沈阳110004

出　　处：《小型微型计算机系统》2006年第10期1927-1930,共4页Journal of Chinese Computer Systems

基　　金：国家自然科学基金项目(60573090)资助;辽宁自然科学基金项目(20052006)资助;辽宁省教育厅攻关计(05L354)资助.

摘　　要：聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD-Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.In data mining fields, clustering is an important issue. Comparing with other algorithms, the cell-based clustering algorithms can be applied to low dimensional data. However, in the cell-based algorithms, the number of ceils will increase exponentially with the dimensionality. So it is low efficient with high dimensionality due to a large number of cells. This paper proposes a new clustering algorithm based on CD-Tree, which improve largely the efficiency of the cell-based algorithm. In addition, to improve the efficiency of the algorithm further, we design the pruning strategy that prunes the non-dense cells before the clustering procedure. Extensive experiments on real and synthetic datasets also show that the algorithm has better scalability than other cell-based clustering algorithms.

关键词：数据挖掘聚类分析 CD—Tree 基于网格的算法

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种优化的基于网格的聚类算法被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

一种优化的基于网格的聚类算法 被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

一种优化的基于网格的聚类算法被引量：6