基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2

The Improvement of Kmeans Algorithm Facing the Movie Dataset Based on Hadoop Platform

出　　处：《哈尔滨师范大学自然科学学报》2012年第1期32-36,共5页Natural Science Journal of Harbin Normal University

基　　金：国家自然科学基金项目(60970060);天津市教委资助项目(20071328);天津市科技支撑计划重点项目(09ZCKFGX00500);天津师大博士基金项目资助(52LX17)

摘　　要：针对聚类算法并行化的需求,该文对基于Hadoop平台Kmeans算法进行了改进,选用Canopy算法对数据进行预处理,并在具有一定数据结构的电影数据集上进行了单机对比实验,集群加速比实验和集群扩展率实验,分别体现改进后算法实现的高效性、良好的加速比和可扩展性,从而可以有效地运用在实际海量数据挖掘中.According to parallelism demand of the clustering algorithm, This paper improved the implemention of the kmeans algorithm based on the Hadoop platform. We do the preprocess on the dataset using the canopy algorithm, and conduct the single contrast experiment, cluster speed up experiment and cluster expansion rate experiment, showing the high effiency, better speed up and scalability, thus the implemention can be used in the pratical mass data mining effectively.

关键词：HADOOP MAP REDUCE Kmeans

分类号：TP391.41[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Hadoop平台上面向电影数据集Kmeans算法的改进 被引量：2

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Hadoop平台上面向电影数据集Kmeans算法的改进被引量：2