基于核函数的隔离森林算法  

Isolation Forest Algorithm Based on Kernel Function

在线阅读下载全文

作  者:董东[1] 郝琳琳 DONG Dong;Hao LinLin(College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang 050024,China)

机构地区:[1]河北师范大学计算机与网络空间安全学院,河北石家庄050024

出  处:《软件导刊》2024年第11期125-128,共4页Software Guide

基  金:教育部教育考试院“十四五”规划支撑专项(NEEA2021064);河北师范大学人文社会科学校内科研基金计划项目(S23JX003);河北省高等学校人文社会科学研究项目教育发展专项(WTZX202421)。

摘  要:基于随机子采样的隔离森林算法没有考虑到子采样中来自不同区域样本点之间的相对密度,为此提出基于核函数的隔离森林算法K-iForest,根据概率密度函数重新采样来提高隔离森林算法的性能。在离群点检测数据库(ODDS)的Annthyroid、ForestCover、Mulcross、Shuttle和Http(KDD Cup 1999)、Smtp(KDD Cup 1999)、KDD CUP 99数据集上验证K-iForest算法的有效性和效率,并与iForest算法、EIF算法、RRCF算法、GIF算法以及HIF算法进行比较。实验结果表明,K-iForest算法的AUC值高出其他算法0.1%~100.2%。The isolation forest algorithm based on random subsampling does not take into account the relative density between sample points from different regions in the subsampling.Therefore,a kernel based isolation forest algorithm K-iForest is proposed to improve the performance of the iso⁃lation forest algorithm by resampling based on the probability density function.The effectiveness and efficiency of the K-iForest algorithm are vali⁃dated on the Annthyroid,ForestCover,Mulcross,Shuttle in the Outlier Detection Database(ODDS),and Http(KDD Cup 1999),Smtp(KDD Cup 1999),and KDD CUP 99 datasets,and compared it with the iForest algorithm,EIF algorithm,RRCF algorithm,GIF algorithm,and HIF al⁃gorithm.The experimental results show that the AUC value of the K-iForest algorithm is 0.1%to 100.2%higher than other algorithms.

关 键 词:核函数 离群点检测 隔离森林算法 概率密度 相对密度 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象