基于改进PSO-Means算法的大数据聚类处理方法  被引量:2

Method of Large Data Clustering Processing Based on ImprovedPSO Means Clustering Algorithm

在线阅读下载全文

作  者:蒋大锐 徐胜超 JIANG Darui;XU Shengchao(School of Data Science,Guangzhou Huashang College,Guangzhou 511300,China)

机构地区:[1]广州华商学院数据科学学院,广州511300

出  处:《吉林大学学报(信息科学版)》2024年第3期430-437,共8页Journal of Jilin University(Information Science Edition)

基  金:国家自然科学基金资助项目(61772221);广州华商学院校内导师制科研基金资助项目(2023HSDS08);广州华商学院2023年创新创业教育专项研究课题基金资助项目(HS2023CXCY04)。

摘  要:针对大数据聚类处理存在不同类型数据聚类效果差、聚类耗时长的问题,提出了基于改进PSO-Means(Particle Swarm Optimization Means)算法的大数据聚类处理方法。该方法采用粒子群算法确定一次聚类过程中单位粒子的飞行时间和飞行方向,预先设定初始聚类中心的选择范围,并适当调整单位粒子的惯性权重,以消除粒子振荡造成的聚类缺陷,成功获取基于大规模数据的聚类中心。结合生成树算法,通过从样本偏差和质心偏度两个方面对PSO算法进行优化,并将优化后的聚类中心输入到k-means聚类算法中,实现大数据聚类处理。实验结果表明,改进的PSO-Means方法可以有效地聚类不同类型的数据,并且聚类耗时仅为0.3 s,验证了该方法具备较好的聚类性能和聚类效率。Big data clustering processing has the problem of poor clustering effect and long clustering time for different types of data.Therefore,a big data clustering processing method based on the improved PSO-Means(Particle Swarm Optimization Means)clustering algorithm is proposed.The particle swarm optimization algorithm is used to determine the flight time and direction of unit particles during a cluster,preset the selection range of the initial cluster center,and appropriately adjust the inertia weight of unit particles.It eliminates the clustering defects caused by particle oscillation and successfully obtains the clustering center based on large-scale data.Combined with the spanning tree algorithm,the PSO algorithm is optimized from two aspects:sample skewness and centroid skewness.The optimized clustering center is then input into the k-means clustering algorithm to realize the clustering processing of big data.The experimental results show that the proposed method can effectively cluster different types of data,and the clustering time is only 0.3 s,which verifies that the method has good clustering performance and clustering efficiency.

关 键 词:大规模数据 粒子群算法 寻优 K-MEANS聚类算法 数据聚类 

分 类 号:TP393.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象