基于MapReduce的并行模糊C均值算法  被引量:12

Parallel fuzzy C-means algorithm based on MapReduce

在线阅读下载全文

作  者:虞倩倩[1] 戴月明[1] 

机构地区:[1]江南大学物联网工程学院,江苏无锡214122

出  处:《计算机工程与应用》2013年第14期133-137,151,共6页Computer Engineering and Applications

基  金:轻工过程先进控制教育部重点实验室开放课题资助(江南大学)项目(No.APCLI1004)

摘  要:模糊C均值是一种重要的软聚类算法,针对模糊C均值的随着数据量的增加,时间复杂度过高的缺点,提出了一种基于MapReduce的并行模糊C均值算法。算法重新设计模糊C均值,使其符合MapReduce的基于key/value的编程模型,并行计算数据集到中心点的隶属度,并重新计算出新的聚类中心,提高了模糊C均值处理大容量数据的计算效率。实验结果表明,基于MapReduce的并行模糊C均值算法具有较高的加速比和扩展性。Fuzzy C-means is an important soft-clustering algorithm, but with the increased amount of data the time complexity will be increased. In this paper, a parallel fuzzy C-means algorithm based on the MapReduce is proposed. The fuzzy C-means algo- rithm is redesigned to meet the MapReduce programming model. The membership degree of data set to the center is computed in parallel, and the new cluster center is re-calculated, so that the higher calculating efficiency of processing large amount of data can be got. The experimental results show that the parallel fuzzy C-means algorithm based on the MapReduce has the advantages of both high speedup and good scalability.

关 键 词:模糊C均值 并行计算 MapReduce编程模型 数据挖掘 云计算 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象