检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中南财经政法大学信息与安全工程学院,武汉430073 [2]武汉轻工大学数学与计算机学院,武汉430023
出 处:《计算机应用研究》2014年第3期819-824,共6页Application Research of Computers
基 金:国家自然科学基金资助项目(71173238);国家教育部人文社科研究青年基金资助项目(12YJC630078);中央高校基本科研业务费专项资金资助项目(31541311302;31541111305)
摘 要:针对数据发布中的隐私泄露问题,分析了对数据集进行匿名保护需要满足的条件,提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理,将数据集中的元组划分到若干个等价群中,然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中,以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并,可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨,提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明,该方法是有效可行的。Publishing data without revealing privacy of individuals is an important problem. This paper analyzed the require- ments that an anonymized data set should meet and presented a data anonymization method based on restriction of information gain ratio. By applying the hierarchical agglomerative clustering, the method assigned all the tuples in a dataset to several e- quivalence classes and generalized the quasi-identifier of all the tuples in each equivalence class with the same valuff. To get an anonymization result with adequate utility and securi.ty, controlled the clusters combination process in clustering procedure by the restrictions that the information loss should be minimized while the informatiou gain ratio should be maximized. This pa- per also discussed the problem of evaluating the quality of anonymization results and brought out a method of measuring the u- tility and privacy of an anonymization result. A series of experimental results based on the Adult data set provided by the UCI knowledge shows that the methods are effective and feasible.
关 键 词:数据匿名 凝聚层次聚类 信息增益 准标志符 数据发布
分 类 号:TP393[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.173