改进K-means算法的MapReduce并行化研究  被引量:7

Parallelization Study of Improved K-means Algorithm on MapReduce Programming Model

在线阅读下载全文

作  者:李兰英[1] 董义明[1] 孔银[1] 周秋丽[1] 

机构地区:[1]哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080

出  处:《哈尔滨理工大学学报》2016年第1期31-35,共5页Journal of Harbin University of Science and Technology

基  金:黑龙江省教育厅科学技术研究项目(12531107)

摘  要:针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题,本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在MapReduce模型上进行了实现.实验结果表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快.Because the selection of the initial clustering center is not sure, K-means algorithm has slow conver- gence speed when it is dealing with massive amounts of data. This paper introduced an improved k-means algorithm. Firstly, the idea of fuzzy clustering is introduced to classify the datasets. Secondly, the datasets are reclassified by means of dynamic clustering center. Finally, the improved algorithm is tested on MapReduce programming model. The experimental results show that the improved algorithm not only has a higher speedup, but also has a faster convergence.

关 键 词:聚类 MAPREDUCE K—means 加速比 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象