Spark框架下保护数据差分隐私的遗传聚类算法  被引量:1

在线阅读下载全文

作  者:张玉婷 

机构地区:[1]海军通信总站二大队,北京100000

出  处:《电脑知识与技术》2019年第2期198-200,共3页Computer Knowledge and Technology

摘  要:针对分布式计算框架下海量数据聚类分析过程中的数据隐私泄露问题,提出了一种Spark下支持差分隐私保护的遗传k-means聚类算法。首先利用遗传算法实现对k-means聚类方案的全局寻优,提高算法的准确率;并采用种群迁移策略将遗传k-means算法部署于Spark框架中,实现基于内存读写的分布式聚类;然后利用差分隐私保护的Laplace Spark每轮迭代的mapvalues算子中,对各聚簇中记录数量num和聚簇中各记录之和sum上添加随机噪声。根据差分隐私保护的性质,通过理论分析证明了算法达到ε-差分隐私保护要求。最后实验分析表明了算法在Spark框架下的时效性高于MapReduce框架,其运行时间主要受迭代次数的影响,并且得出了使算法隐私性和准确性达到平衡的最优隐私保护预算取值。

关 键 词:数据分析 K-MEANS聚类 Spark框架 差分隐私 遗传算法 

分 类 号:TP309.7[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象