检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国矿业大学物联网(感知矿山)研究中心,江苏徐州221008 [2]矿山互联网应用技术国家地方联合工程实验室,江苏徐州221008 [3]中国矿业大学信息与电气工程学院,江苏徐州221116
出 处:《中文信息学报》2017年第4期145-153,共9页Journal of Chinese Information Processing
基 金:国家自然科学基金(41302203)
摘 要:互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。Due to sharp increase of internet texts,the processing of k-means on such data is incredibly lengthened.Some classic parallel architectures,such as Hadoop,have not improved the execution efficiency of K-means,because the frequent iteration in such algorithms is hard to be efficiently handled.This paper proposed a parallelization algorithm of k-means based on Spark.It makes full use of in-memory-computing RDD model of Spark so as to well meet the frequent iteration requirement of k-means.Experimental results show that k-means executes much more efficiently in Spark than in Hadoop on the same datasets and the same computing environments.
关 键 词:K-MEANS 并行化 文本聚类 SPARK RDD Hadoop MAPREDUCE
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.119.103.40