屏蔽输入参数敏感的异常点检测新方法  被引量:2

New Approach to Detect Outlier which is Insensitive to Input Parameter

在线阅读下载全文

作  者:陶运信[1] 皮德常[1] 

机构地区:[1]南京航空航天大学信息科学与技术学院,南京210016

出  处:《计算机科学》2008年第12期192-195,206,共5页Computer Science

基  金:国家高技术研究发展计划(863计划)项目(2007AA01Z404)资助

摘  要:大多数基于密度的异常点检测算法需要设置两个输入参数,并对输入参数很敏感,用户设置不正确会导致算法不能发现所有有意义的异常点,甚至是发现错误的异常点,这使得评价一个数据挖掘算法的"3-E"标准中"易于使用"这一点不能得到满足。为此,首先根据对象的邻域、反邻域和局部密度构造基于邻域的局部密度因子NLDF,NLDF可指示异常点的异常程度,然后提出一种屏蔽输入参数敏感的异常点检测算法ODINP。ODINP的一个非常显著的优点就是只需要一个参数k并且对k不敏感。该算法在保持已有基于密度的异常点检测算法高效性的同时,具有很高的异常点检测精度。大规模、任意形状和高维数据集的测试结果表明该算法是有效的、可行的。Most density-based outlier detection algorithms require the setting of two input parameters and are sensitive to input parameters. Incorrect setting may cause an algorithm to fail in finding all meaningful outliers and even find wrong outliers, which cannot satisfy the easy to use of "3-E" criteria. Therefor, constructed neighborhood based local density factor NLDF taking account of neighborhood, reverse neighborhood and local density, NLDF can denote the de- gree of outlierness of an object. Afterward,an novel outlier detection algorithm named ODINP that insensitive to input parameter was proposed. ODINP keeps the efficiency of the existing density-based outlier detection algorithms and owns high precision. Just a parameter k and insensitive to k is a significantly advantage of ODINP. Extensive experiments on large-scale,different shape and high-dimensional data sets demonstrated that the algorithm is effective and feasible.

关 键 词:数据挖掘 异常点检测 参数 邻域 密度 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论] TU312.3[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象