基于密度优化初始聚类中心的K-means算法  被引量:6

K-means Algorithm Based on Density Optimization Initial Clustering Center

在线阅读下载全文

作  者:王艳娥 安健[2] 梁艳[1] 康晶晶 WANG Yan-e;AN Jian;LIANG Yan;KANG Jing-jing(School of Technology,Xi’an Siyuan University,Xi’an 710038,China;Shenzhen Research Institute of Xi’an Jiaotong University,Shenzhen 518057,China;School of Information Engineering,Shanxi Agricultural University,Jinzhong 030800,China)

机构地区:[1]西安思源学院理工学院,陕西西安710038 [2]西安交通大学深圳研究院,广东深圳518057 [3]山西农业大学信息学院,山西晋中030800

出  处:《计算机技术与发展》2020年第12期99-105,共7页Computer Technology and Development

基  金:深圳市科技计划项目(JCYJ20170816100939373);陕西省教育科学研究计划项目(18JK1100);陕西省高等教育科学研究项目(XGH19236)。

摘  要:针对K-means算法随机选择初始聚类中心,对噪音和异常点比较敏感,聚类结果过多依赖于专家经验从而缺乏一定客观性的问题,提出一种新的度量样本密度的方法优化K-means算法对初始聚类中心的选择。该方法基于样本实际分布,以最优超球体中样本个数与超球体中样本相似性作为度量样本密度的关键,能够有效选出较优的聚类中心,使得选择的初始聚类中心更接近样本集的实际分布。算法在乳腺癌数据集、常用UCI数据集以及人工模拟数据集上进行测试,实验结果表明,与已有同类方法相比,该算法在各数据集上的聚类评价指标均有提高,而且运行速度更快,聚类结果更稳定,聚类准确率更高:在乳腺癌数据集wdbc上的准确率为91.04%,提高了6%。在Iris数据集上的准确率为94%,提高了5%。The K-means algorithm randomly selects the initial clustering center,which is sensitive to noise and outliers.The clustering results are too dependent on expert experience and thus lack of objectivity.In order to solve the problem,we propose a new method of measuring sample density to optimize the selection of the initial clustering center by K-means algorithm.Based on the actual distribution of samples,this method takes the number of samples in the optimal hypersphere and the similarity of samples in the hypersphere as the key to measure the sample density,and can effectively select the optimal clustering center,so that the selected initial clustering center is closer to the actual distribution of the sample set.The algorithm is tested on the breast cancer data set,UCI data set and artificial simulation data set.The experiment shows that compared with the existing similar methods,the proposed algorithm improves the clustering evaluation index on each data set,and runs faster,with more stable clustering results and higher clustering accuracy.The accuracy rate on wdbc is 91.04%,increased by 6%.The accuracy on Iris is 94%,up 5%.

关 键 词:K-MEANS算法 密度 去噪 最优超球体 均方差 噪声数据 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象