基于KNN和深度高斯混合模型的边界过采样方法  被引量:2

A Novel Borderline Over-Sampling Method Based on KNN and Deep Gaussian Mixture Model for Imbalanced Data

在线阅读下载全文

作  者:张海宾 肖涵[1,3] 易灿灿 袁锐[1,3] Zhang Haibin;Xiao Han;Yi Cancan;Yuan Rui(Key Laboratory of Metallurgical Equipment and Control Technology,Ministry of Education,Wuhan University of Science and Technology,Wuhan 430081,China;Hubei Key Laboratory of Mechanical Transmission and Manufacturing Engineering,Wuhan University of Science and Technology,Wuhan 430081,China;Precision Manufacturing Institute,Wuhan University of Science and Technology,Wuhan 430081,China)

机构地区:[1]武汉科技大学冶金装备及其控制教育部重点实验室,武汉430081 [2]武汉科技大学机械传动与制造工程湖北省重点实验室,武汉430081 [3]武汉科技大学精密制造研究院,武汉430081

出  处:《数据分析与知识发现》2023年第5期116-122,共7页Data Analysis and Knowledge Discovery

基  金:2021年湖北省重点研发计划项目(项目编号:2021BAA194);国家自然科学基金面上项目(项目编号:51875416);中国博士后科学基金面上项目(项目编号:2020M682492)的研究成果之一。

摘  要:【目的】针对数据不平衡导致的分类器偏向问题,提出一种基于K-最近邻(KNN)算法和深度高斯混合模型(DGMM)的边界过采样方法。【方法】首先,采用KNN算法获得训练集中的边界少数类样本;其次,构建该区域少数类样本的DGMM,并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据;最后,采用3σ准则剔除噪声样本,循环执行直到生成的样本不存在异常值。【结果】所提方法获得的AUC和G均值的最大提升幅度分别为8.62%和12.99%,对应的平均提升幅度分别为3.51%和4.93%。【局限】DGMM的参数优化方法需进一步完善。【结论】所提方法可以更好地处理数据不平衡问题。[Objective]This paper proposes a borderline oversampling method based on the k-nearest neighbor algorithm(KNN)and Deep Gaussian Mixture Model(DGMM)to address the classifier bias due to data imbalance.[Methods]Firstly,we used the KNN algorithm to obtain the borderline minority samples in the training set.Secondly,we constructed a DGMM for the minority samples.Next,we applied the DGMM in reverse to generate the oversampling samples that conform to the distribution characteristics of the borderline minority samples.Finally,we used the three sigma guidelines to remove noise samples.We repeated the process until no outlier samples were generated.[Results]The proposed method improved the AUC and G-mean up to 8.62%and 12.99%,respectively.The corresponding average increased by 3.51%and 4.93%.[Limitations]The parameter optimization method for DGMM needs further improvement.[Conclusions]The proposed method can better address the problem of imbalanced data.

关 键 词:数据不平衡 过采样 深度高斯混合模型 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象