检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:古凌岚[1]
机构地区:[1]广东轻工职业技术学院计算机工程系,广州510300
出 处:《现代计算机(中旬刊)》2015年第7期10-15,共6页Modern Computer
基 金:广东省档案局科研技项目(YDK-95-2014)
摘 要:针对基于基因表达式编程的K均值聚类算法(GEP_K均值)中聚类中心生成和适应度评价环节的计算效率较低的问题,提出一种基于MapReduce框架的GEP_K均值聚类算法。采用MapReduce分布式并行编程模式,对适应度评价环节进行并行化改进,以减少算法处理时间,借助线性数据结构直接操作染色体基因,以降低染色体基因表达求解生成聚类中心的时间和空间复杂度,并在Hadoop平台上通过仿真实验对算法的性能进行验证。实验结果表明,该算法获得了较好的加速比和可扩展性,且无需额外空间开销,适用于聚类数未知的大规模数据集的聚类分析。In order to improve the computation efficiency of cluster center generation and fitness evaluation in K-means clustering algorithm based on Gene Expression Programming. Proposes a hybrid clustering algorithm of K-means and GEP based on MapReduce framework. As a distributional parallel programming model, MapReduce is used to parallel the computation of fitness evaluation in order to reduce processing time, and uses linear data structure to operated directly on chromosome genes in order to reduce the time and space complexities of genes expression to solve the cluster center. Verifies the algorithm on Hadoop by simulations. Experimental results show that the algorithm has high speedup and good stability, and no extra space overhead, fits to clustering analysis on massive data.
关 键 词:K均值 基因表达式编程 MAPREDUCE 并行 大数据集
分 类 号:TP392[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222