基于密度峰值聚类的不平衡数据过抽样方法  

Oversampling Method for Imbalanced Data Based on Density Peak Clustering

在线阅读下载全文

作  者:张智驹 Zhang Zhiju(School of Intelligent Information Engineering,Chongqing Aerospace Polytechnic,Chongqing 400021,China)

机构地区:[1]重庆航天职业技术学院智能信息工程学院,重庆400021

出  处:《统计与决策》2024年第8期11-16,共6页Statistics & Decision

摘  要:大多数不平衡数据过抽样方法依赖于太多参数,容易生成噪声并难以处理流形数据集。为此,文章提出了一种基于密度峰值聚类的不平衡数据过抽样方法(OVMEDPC)。首先,OVMEDPC用密度峰值聚类(DPC)来发现不平衡数据的空间结构;其次,OVMEDPC设计了一种基于密度峰值聚类的噪声过滤方法来移除噪声;最后,OVMEDPC设计了一种基于密度峰值聚类的插值技术来生成少数类的合成样本。实验证明,就随机森林分类器而言,OVMEDPC在F-measure和G-mean上优于5个先进的过抽样方法。Most oversampling methods for imbalanced data rely on too many parameters,which are easy to generate noise and difficult to handle manifold data sets.Therefore,this paper proposes an oversampling method for imbalanced data based on density peak clustering(OVMEDPC).First,OVMEDPC uses density peak clustering(DPC)to reveal the spatial structure of imbalanced data.Second,OVMEDPC designs a density peak clustering-based noise filter to remove noise.Finally,OVMEDPC designs an in-terpolation method to create synthetic minority class samples.Experiments show that in terms of random forest classifiers,OVMEDPC outperforms 5 advanced over-sampling methods on F-measure and G-mean.

关 键 词:不平衡分类 过抽样方法 分类 密度峰值 聚类 

分 类 号:TP391[自动化与计算机技术—计算机应用技术] TP181[自动化与计算机技术—计算机科学与技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象