基于云计算平台Hadoop的并行k-means聚类算法设计研究  被引量:84

Research on Parallel k-means Algorithm Design Based on Hadoop Platform

在线阅读下载全文

作  者:赵卫中[1,2] 马慧芳[3,2] 傅燕翔[4] 史忠植[2] 

机构地区:[1]湘潭大学信息工程学院,湘潭411105 [2]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [3]西北师范大学数学与信息科学学院,兰州730070 [4]湘潭大学机械工程学院,湘潭411105

出  处:《计算机科学》2011年第10期166-168,176,共4页Computer Science

基  金:国家自然科学基金(60933004;60975039;61072085);国家973项目(2007CB311004);西北师范大学青年教师科研能力提升计划骨干项目(NWNU-LKQN-10-1);湘潭大学博士启动基金(10QDZ42);湖南省教育厅一般项目(09C967)资助

摘  要:随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。In the past decades,data clustering has been studied extensively and a mass of methods and theories have been achieved.However,with the development of database and popularity of Internet,a lot of new challenges such as massive data and new computing environment lie in the research on data clustering.We conducted a deep research on parallel k-means algorithm based on Hadoop,which is a new cloud computing platform.We showed how to design parallel k-means algorithms on Hadoop.Experiments on different size of datasets demonstrate that our proposed algorithm shows good performance on speedup,scaleup and sizeup.Thus it fits to data clustering on huge datasets.

关 键 词:云计算 HADOOP平台 并行k-means MAPREDUCE 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象