基于信息增益比例约束的数据匿名方法及其评估机制  被引量:2

Data anonymization based on restriction of information gain ratio: method and evaluation

在线阅读下载全文

作  者:熊平[1] 朱天清[2] 顾霄[1] 

机构地区:[1]中南财经政法大学信息与安全工程学院,武汉430073 [2]武汉轻工大学数学与计算机学院,武汉430023

出  处:《计算机应用研究》2014年第3期819-824,共6页Application Research of Computers

基  金:国家自然科学基金资助项目(71173238);国家教育部人文社科研究青年基金资助项目(12YJC630078);中央高校基本科研业务费专项资金资助项目(31541311302;31541111305)

摘  要:针对数据发布中的隐私泄露问题,分析了对数据集进行匿名保护需要满足的条件,提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理,将数据集中的元组划分到若干个等价群中,然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中,以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并,可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨,提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明,该方法是有效可行的。Publishing data without revealing privacy of individuals is an important problem. This paper analyzed the require- ments that an anonymized data set should meet and presented a data anonymization method based on restriction of information gain ratio. By applying the hierarchical agglomerative clustering, the method assigned all the tuples in a dataset to several e- quivalence classes and generalized the quasi-identifier of all the tuples in each equivalence class with the same valuff. To get an anonymization result with adequate utility and securi.ty, controlled the clusters combination process in clustering procedure by the restrictions that the information loss should be minimized while the informatiou gain ratio should be maximized. This pa- per also discussed the problem of evaluating the quality of anonymization results and brought out a method of measuring the u- tility and privacy of an anonymization result. A series of experimental results based on the Adult data set provided by the UCI knowledge shows that the methods are effective and feasible.

关 键 词:数据匿名 凝聚层次聚类 信息增益 准标志符 数据发布 

分 类 号:TP393[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象