关联子空间离群点挖掘  被引量:2

Relevant Subspace Based Outlier Mining

在线阅读下载全文

作  者:葛清龙 薛安荣[1] 贾小艳[1] 

机构地区:[1]江苏大学计算机科学与通信工程学院,江苏镇江212013

出  处:《小型微型计算机系统》2015年第5期1028-1032,共5页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(61300228)资助

摘  要:针对高维数据,已有的子空间离群点挖掘方法未能有效反映子空间的关联程度,对所有数据点采用统一的子空间,不能有效凸显不同离群点存在的特有子空间,导致挖掘精度不高和挖掘结果难以解释等问题.且都平等的对待数据点在多个子空间中的离群得分,使离群点与非离群点之间的对比度低.为此,提出一个新的关联子空间离群点挖掘算法.算法根据数据点及其局部邻域在一维投影上的分布特性,把一维投影上具有最大非均匀分布程度的维作为关联度子空间的基准维,用类Apriori算法将关联度大的子空间快速构造成不同数据点特有的关联子空间集合,并基于关联子空间进行离群点挖掘.算法给偏离度大的赋予较大的权值,加大了离群点与非离群点之间的对比度.实验表明,算法取得较高准确度,并优于现有方法.A new outlier mining method based on relevant subspace is proposed for high dimensional data, for improvement of performance and interpretability of the mining results, as well as the contrast between outliers and non-outliers. Firstly, the projection of a data point and its neighborhood on each dimension of a subspace is analyzed and made use of to determine the relevant degree of the subspace. Secondly, an individual relevant subspace set is assigned to each data point quickly by using an Apriori-like searching method. And then the process of outlier mining can be implemented based on the relevant subspaces. The contrast between outliers and nonoutliers is improved by assigning greater weights to greater outlying scores. Experimental results show that our approach outperforms existing relevant subspace based outlier mining methods.

关 键 词:离群点挖掘 子空间 子空间离群点 关联子空间 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象