面向海量数据的K-means聚类优化算法  被引量:13

Optimized K-means clustering algorithm for massive data

在线阅读下载全文

作  者:冀素琴[1] 石洪波[1] 

机构地区:[1]山西财经大学信息管理学院,太原030031

出  处:《计算机工程与应用》2014年第14期143-147,共5页Computer Engineering and Applications

基  金:国家自然科学基金(No.60873100);山西省自然科学基金(No.2010011022-1);山西省科技基础条件平台建设项目(No.2011091001-0101)

摘  要:针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。In order to solve the problem of the clustering on massive data under the framework of a centralized system, an optimized algorithm to K-means clustering based on MapReduce is proposed. By using MapReduce parallel programming framework and importing Canopy clustering, this algorithm optimizes initial clustering center, improves communication mode and calculation mode in iteration. The experimental results show that this algorithm can effectively improve the quality of clustering, and can have higher implementation efficiency, its good scalability, thus it fits to clustering analysis on massive data.

关 键 词:海量数据 聚类 MAPREDUCE K-MEANS算法 Canopy算法 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象