基于Spark的大规模文本k-means并行聚类算法  被引量:14

Parallel K-means Algorithm for Massive Texts on Spark

在线阅读下载全文

作  者:刘鹏[1,2] 滕家雨 丁恩杰 孟磊[1,2] 

机构地区:[1]中国矿业大学物联网(感知矿山)研究中心,江苏徐州221008 [2]矿山互联网应用技术国家地方联合工程实验室,江苏徐州221008 [3]中国矿业大学信息与电气工程学院,江苏徐州221116

出  处:《中文信息学报》2017年第4期145-153,共9页Journal of Chinese Information Processing

基  金:国家自然科学基金(41302203)

摘  要:互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。Due to sharp increase of internet texts,the processing of k-means on such data is incredibly lengthened.Some classic parallel architectures,such as Hadoop,have not improved the execution efficiency of K-means,because the frequent iteration in such algorithms is hard to be efficiently handled.This paper proposed a parallelization algorithm of k-means based on Spark.It makes full use of in-memory-computing RDD model of Spark so as to well meet the frequent iteration requirement of k-means.Experimental results show that k-means executes much more efficiently in Spark than in Hadoop on the same datasets and the same computing environments.

关 键 词:K-MEANS 并行化 文本聚类 SPARK RDD Hadoop MAPREDUCE 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象