检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:顾东虎[1] GU Dong-hu(Yunnan Technology and Business University,Kunming 651701,China)
机构地区:[1]云南工商学院,云南昆明651701
出 处:《长春师范大学学报》2020年第10期29-35,共7页Journal of Changchun Normal University
基 金:云南省教育厅2018年度科学研究基金项目“基于Hadoop架构的高校学生就业大数据平台解决方案研究”(2018B01005)。
摘 要:传统AP聚类算法性能会随着数据规模扩大和结构复杂化而快速衰减,为此在Hadoop云平台下提出基于P-WAP的聚类挖掘算法。用邻域相似度指标替代传统AP算法中欧式距离相似度,提高聚类算法应对大规模数据的能力,将样本集合中的数据集分配给Hadoop云平台中的数据处理节点,利用平台并行计算能力对待处理数据集进行加权聚类,优化算法性能。实验结果表明,所提算法在海量数据规模下拥有更高的聚类效率,在聚类准确率和时间复杂度控制方面效果更好。The performance of traditional AP clustering algorithm decreases rapidly with the expansion of data scale and complexity of structure.Therefore,a clustering mining algorithm based on P-WAP is proposed on Hadoop cloud platform.The Euclidean distance similarity in traditional AP algorithm is replaced by neighborhood similarity index,which improves the ability of clustering algorithm to deal with large-scale data.The data balance in the sample set is allocated to the data processing nodes in Hadoop cloud platform.The parallel computing ability of the platform is used to cluster the processed data set weighted and optimize the calculation.The experimental results show that the proposed algorithm has higher clustering efficiency under large data conditions,and has better clustering accuracy and time complexity control.
关 键 词:Hadoop云平台 P-WAP 并行计算 聚类挖掘
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.38