检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张玉婷
出 处:《电脑知识与技术》2019年第2期198-200,共3页Computer Knowledge and Technology
摘 要:针对分布式计算框架下海量数据聚类分析过程中的数据隐私泄露问题,提出了一种Spark下支持差分隐私保护的遗传k-means聚类算法。首先利用遗传算法实现对k-means聚类方案的全局寻优,提高算法的准确率;并采用种群迁移策略将遗传k-means算法部署于Spark框架中,实现基于内存读写的分布式聚类;然后利用差分隐私保护的Laplace Spark每轮迭代的mapvalues算子中,对各聚簇中记录数量num和聚簇中各记录之和sum上添加随机噪声。根据差分隐私保护的性质,通过理论分析证明了算法达到ε-差分隐私保护要求。最后实验分析表明了算法在Spark框架下的时效性高于MapReduce框架,其运行时间主要受迭代次数的影响,并且得出了使算法隐私性和准确性达到平衡的最优隐私保护预算取值。
关 键 词:数据分析 K-MEANS聚类 Spark框架 差分隐私 遗传算法
分 类 号:TP309.7[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.128.95.177