Kmeans算法的Spark实现及优化  被引量:1

Kmeans Algorithm Based on the Spark of Parallel Implementation and Optimization

在线阅读下载全文

作  者:张友海[1] 李锋刚[2] 

机构地区:[1]安徽职业技术学院信息工程系,合肥230011 [2]合肥工业大学管理学院,合肥230009

出  处:《西安文理学院学报(自然科学版)》2017年第3期18-20,32,共4页Journal of Xi’an University(Natural Science Edition)

基  金:国家自然科学青年基金:"基于多重分形和文本数据流技术的网络金融信息动态挖掘研究"(71301041)

摘  要:聚类算法作为机器学习领域的一个至关重要的算法体系,已经被深入研究和广泛使用了很多年,其主要研究内容集中在用相似距离作为依据,其中Kmeans算法应用极为广泛,被添加到各种数据挖掘软件包中.传统的Kmeans算法不能满足今天大数据环境下的应用,文中利用Spark技术将其改进为并行化的设计思想并进行优化.As one of the most important algorithms in the field of machine learning, clustering algorithm has been studied and widely used for many years. The main research content is based on the similarity distance, in which the Kmeans algorithm is widely used and is added to various data mining software packages. The traditional Kmeans algorithm can not meet the needs of today's big data environment, in this paper, we use Spark technology to improve the design idea and optimize it.

关 键 词:Kmeans算法 SPARK 并行化 优化 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象