基于Spark的大规模文本k-means并行聚类算法被引量：14

Parallel K-means Algorithm for Massive Texts on Spark

机构地区：[1]中国矿业大学物联网(感知矿山)研究中心,江苏徐州221008 [2]矿山互联网应用技术国家地方联合工程实验室,江苏徐州221008 [3]中国矿业大学信息与电气工程学院,江苏徐州221116

出　　处：《中文信息学报》2017年第4期145-153,共9页Journal of Chinese Information Processing

基　　金：国家自然科学基金(41302203)

摘　　要：互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。Due to sharp increase of internet texts,the processing of k-means on such data is incredibly lengthened.Some classic parallel architectures,such as Hadoop,have not improved the execution efficiency of K-means,because the frequent iteration in such algorithms is hard to be efficiently handled.This paper proposed a parallelization algorithm of k-means based on Spark.It makes full use of in-memory-computing RDD model of Spark so as to well meet the frequent iteration requirement of k-means.Experimental results show that k-means executes much more efficiently in Spark than in Hadoop on the same datasets and the same computing environments.

关键词：K-MEANS 并行化文本聚类 SPARK RDD Hadoop MAPREDUCE

分类号：TP311[自动化与计算机技术—计算机软件与理论]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Spark的大规模文本k-means并行聚类算法被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于Spark的大规模文本k-means并行聚类算法 被引量：14

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于Spark的大规模文本k-means并行聚类算法被引量：14