基于乌鸦搜索的隐私保护聚类算法  被引量:2

Privacy preserving clustering algorithm based on crow search

在线阅读下载全文

作  者:夏雪薇 张磊[1] 李晶[1] 邓雨康 Xia Xuewei;Zhang Lei;Li Jing;Deng Yukang(School of Information&Electronic Technology,Jiamusi University,Jiamusi Heilongjiang 154007,China)

机构地区:[1]佳木斯大学信息电子技术学院,黑龙江佳木斯154007

出  处:《计算机应用研究》2023年第12期3778-3783,共6页Application Research of Computers

基  金:黑龙江省自然科学基金联合引导项目(LH2021F054);黑龙江省省属高等学校基本科研业务费优秀创新团队建设项目(2022-KYYWF-0654);黑龙江省哲学社会科学研究规划项目(22GLH084);佳木斯大学国家基金培育项目(JMSUGPZR2022-014)。

摘  要:针对基于差分隐私的K-means聚类存在数据效用差的问题,基于乌鸦搜索和轮廓系数提出了一个隐私保护的聚类算法(privacy preserving clustering algorithm based on crow search, CS-PCA)。该算法一方面利用轮廓系数对每次迭代中每个簇的聚类效果进行评估,根据聚类效果添加不同数量的噪声,并利用聚类合并思想降低噪声对聚类的影响;另一方面利用乌鸦搜索对差分隐私的K-means隐私保护聚类算法中初始质心的选择进行优化,防止算法陷入局部最优。实验结果表明,CS-PCA算法的聚类有效性更高,并且同样适用于大规模数据。从整体上看,随着隐私预算的不断增大,CS-PCA算法的F-measure值分别比DP-KCCM和PADC算法高了0~281.3312%和4.5876%~470.3704%。在相同的隐私预算下,CS-PCA算法在绝大多数情况下聚类结果可用性优于对比算法。K-means clustering for differential privacy has the problem of poor data utility.This paper proposed a privacy preserving clustering algorithm(CS-PCA)based on crow search and silhouette coefficient.On the one hand,the algorithm used silhouette coefficient to evaluate the clustering effect of each cluster in each iteration,added different amounts of noise accor-ding to the clustering effect,and used the idea of clustering merging to reduce the influence of noise on clustering.On the other hand,it used crow search to optimize the selection of initial centroid in the K-means privacy protection clustering algorithm of differential privacy,and prevented the algorithm from falling into local optimum.The experimental results show the CS-PCA algorithm is more effective for clustering,and also is suitable for large-scale data.As a whole,as privacy budgets continue to grow,the F-measure values of CS-PCA algorithm are 0 to 281.3312%and 4.5876%to 470.3704%higher than DP-KCCM and PADC algorithm respectively.With the same privacy budget,CS-PCA algorithm outperforms the comparison algorithm in terms of availability of clustering results.

关 键 词:乌鸦搜索 轮廓系数 K-MEANS聚类 差分隐私 最优初始质心 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象