云计算环境下面向数据分布的K-means聚类算法  被引量:13

Data Distribution K-means Clustering for Cloud Computing

在线阅读下载全文

作  者:刘雪娟[1] 袁家斌[1] 操凤萍[2] 

机构地区:[1]南京航空航天大学计算机科学与技术学院,南京210016 [2]东南大学成贤学院计算机科学与技术系,南京210088

出  处:《小型微型计算机系统》2017年第4期712-715,共4页Journal of Chinese Computer Systems

基  金:国家自然科学基金重点项目(61139002)资助;江苏省科技支撑计划项目(BE2014135)资助;江苏省产学研联合创新资金前瞻性研究项目(BY2014003-15)资助

摘  要:在云计算环境下,针对K-means算法的经典并行方案的不足,提出面向数据分布的K-means算法.Map任务实现一次K-means算法迭代得到局部聚类中心,Reduce任务对局部聚类中心进行再聚类得到全局数据聚类中心,并将其传递给下一轮M apReduce,直到聚类结束.算法的理论分析和实验结果表明:提出的方案无论是运行时间还是迭代次数都比经典方案有一定的降低.Data Distribution K-means Clustering for cloud computing was proposed to cluster large volume of data in Hadoop, Map task implements one K-means iteration on local data block to obtain local clustering centers which will be transferred to Reduce task to be reclustered to produce global clustering center,which will be sent to the next MapReduce task to cluster the data until the end of clustering. The theoretical analysis and experimental results show that the proposed scheme in this paper has a better effect than the classical parallel scheme design either on run time or the number of iterations.

关 键 词:云计算 大数据 数据分布 K-MEANS聚类 MAPREDUCE 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象