基于数据分布特性的聚类中心初始化方法  被引量:4

New Method for the Initialization of Clusters Based on Sata Distribution

在线阅读下载全文

作  者:禹贵辉[1] 潘志斌[1] 乔瑞萍[1] 邹彬[1] 

机构地区:[1]西安交通大学电子与信息工程学院,西安710049

出  处:《微电子学与计算机》2011年第11期152-156,共5页Microelectronics & Computer

基  金:国家自然科学基金项目(60672054);陕西省科学技术攻关项目(2008K04-01);高校博士点基金项目(20100201110030)

摘  要:文中提出了一种新的基于数据局部和全局分布特性的K-Means初始化方法.算法通过对数据空间进行网格化后统计每个网格中数据点数目,选取具有数目局部最大值的网格,再利用距离优化方法全局的估算出K个初始聚类中心.在人工和真实数据集上,进行了与传统的聚类中心初始化算法的比较.实验结果表明,该算法利用局部最大值网格和距离优化的方法估算的聚类中心能够在保持及改善聚类效果的同时,明显减少迭代次数,提高收敛速度.A new initializing algorithm based on data distribution is proposed for K--Means in this paper. First we partition data space into grid and find the local--maximum cell which counts more data points than its neighborhood cells. Then we use distance optimization method to choose the seed clusters from local--maximum cells globally. Benchmark experiments evaluate the proposed method and five other typical initialization methods on both synthetic and real--life data sets, and the results demonstrated that our proposed algorithm gives faster convergence speed without descending in clustering performance.

关 键 词:初始聚类中心 K-均值算法 网格化 局部最大值 距离优化 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象