检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]广西大学计算机与电子信息学院,广西南宁530004
出 处:《广西大学学报(自然科学版)》2014年第5期1060-1065,共6页Journal of Guangxi University(Natural Science Edition)
基 金:广西自然科学基金资助项目(2013GXNSFAA253003)
摘 要:经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。Classic distributed k-means clustering algorithm randomly selects the initial clustering centers.With many times iterations, it is easy to make low clustering efficiency, heavy network traf-fic, and the unstable clustering results.To solve these problems, an improved distributed k-means clustering algorithm is put forward.The algorithm selects the initial clustering centers by partitioning the data set, and calculating k classification blocks of most intensive attribute, to ensure the cluste-ring centers'representative, and then it reduces the number of iterations and improves the efficiency of clustering.Through the experiments on the Hadoop distributed platform, the results show that the improved algorithm can reduce the number of iteration and convergence time.
关 键 词:K-MEANS聚类 分布式算法 MapReduce计算模型 聚类中心
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.171