检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张晓倩[1] 曲福恒[1] 杨勇[1] 才华[1] 梁鲜[1]
机构地区:[1]长春理工大学计算机科学技术学院,长春130022
出 处:《长春理工大学学报(自然科学版)》2015年第4期154-158,共5页Journal of Changchun University of Science and Technology(Natural Science Edition)
摘 要:为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。The traditional K-means algorithm which randomly chosen initial centers and cluster each data sample to the cluster center distance of double counting problem, in order to solve this question, this paper proposes an efficient k-means algorithm based on optimizing initial cluster centers, the algorithm uses the minimum deviation initial cluster centers, by store the labels of cluster and the distance of all the date objects to the nearest cluster during the each iteration, which is to be used in the next iteration, the improved method avoids computing the distance of each data object to the cluster centers repeatly.Tested on the UCI database of five different data sets, the various algorithms in clustering criterion function, running time and number of iterations are compared, the experimental results show that un- der the premise of without affecting the clustering results, shortening the time of clustering, prove the effectiveness and efficiency of the improved algorithm.
关 键 词:K-MEANS算法 方差 初始聚类中心 距离 时间
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222