检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵卫中[1,2] 马慧芳[3,2] 傅燕翔[4] 史忠植[2]
机构地区:[1]湘潭大学信息工程学院,湘潭411105 [2]中国科学院计算技术研究所智能信息处理重点实验室,北京100190 [3]西北师范大学数学与信息科学学院,兰州730070 [4]湘潭大学机械工程学院,湘潭411105
出 处:《计算机科学》2011年第10期166-168,176,共4页Computer Science
基 金:国家自然科学基金(60933004;60975039;61072085);国家973项目(2007CB311004);西北师范大学青年教师科研能力提升计划骨干项目(NWNU-LKQN-10-1);湘潭大学博士启动基金(10QDZ42);湖南省教育厅一般项目(09C967)资助
摘 要:随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。In the past decades,data clustering has been studied extensively and a mass of methods and theories have been achieved.However,with the development of database and popularity of Internet,a lot of new challenges such as massive data and new computing environment lie in the research on data clustering.We conducted a deep research on parallel k-means algorithm based on Hadoop,which is a new cloud computing platform.We showed how to design parallel k-means algorithms on Hadoop.Experiments on different size of datasets demonstrate that our proposed algorithm shows good performance on speedup,scaleup and sizeup.Thus it fits to data clustering on huge datasets.
关 键 词:云计算 HADOOP平台 并行k-means MAPREDUCE
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173