基于MapReduce的GEP_K均值聚类算法  

GEP_K-means Clustering Algorithm Based on Map Reduce

在线阅读下载全文

作  者:古凌岚[1] 

机构地区:[1]广东轻工职业技术学院计算机工程系,广州510300

出  处:《现代计算机(中旬刊)》2015年第7期10-15,共6页Modern Computer

基  金:广东省档案局科研技项目(YDK-95-2014)

摘  要:针对基于基因表达式编程的K均值聚类算法(GEP_K均值)中聚类中心生成和适应度评价环节的计算效率较低的问题,提出一种基于MapReduce框架的GEP_K均值聚类算法。采用MapReduce分布式并行编程模式,对适应度评价环节进行并行化改进,以减少算法处理时间,借助线性数据结构直接操作染色体基因,以降低染色体基因表达求解生成聚类中心的时间和空间复杂度,并在Hadoop平台上通过仿真实验对算法的性能进行验证。实验结果表明,该算法获得了较好的加速比和可扩展性,且无需额外空间开销,适用于聚类数未知的大规模数据集的聚类分析。In order to improve the computation efficiency of cluster center generation and fitness evaluation in K-means clustering algorithm based on Gene Expression Programming. Proposes a hybrid clustering algorithm of K-means and GEP based on MapReduce framework. As a distributional parallel programming model, MapReduce is used to parallel the computation of fitness evaluation in order to reduce processing time, and uses linear data structure to operated directly on chromosome genes in order to reduce the time and space complexities of genes expression to solve the cluster center. Verifies the algorithm on Hadoop by simulations. Experimental results show that the algorithm has high speedup and good stability, and no extra space overhead, fits to clustering analysis on massive data.

关 键 词:K均值 基因表达式编程 MAPREDUCE 并行 大数据集 

分 类 号:TP392[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象