一种自适应核SMOTE-SVM算法用于不平衡数据分类  被引量:13

An adaptive kernel SMOTE-SVM algorithm for imbalanced data classification

在线阅读下载全文

作  者:吴海燕[1] 陈晓磊 范国轩 WU HaiYan;CHEN XiaoLei;FAN GuoXuan(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China)

机构地区:[1]北京化工大学信息科学与技术学院,北京100029

出  处:《北京化工大学学报(自然科学版)》2023年第2期97-104,共8页Journal of Beijing University of Chemical Technology(Natural Science Edition)

摘  要:面向不平衡样本集,提出一种自适应核人工合成过采样-支持向量机(synthetic minority oversampling technique-support vector machine,SMOTE-SVM)分类算法。首先通过支持向量机将数据集投影到核空间,找出类边界样本—支持向量(SV),然后基于核距离对少数类样本集的支持向量(SV+)计算其近邻,再根据近邻样本类别分布自适应地选择内插或外推两种方式合成新样本。由于核空间中映射函数无法具体得知,新样本无法用显式表示,因此将生成样本与原始样本一起形成增广Gram矩阵,最终利用SVM实现分类。该算法中样本生成、近邻计算以及SVM分类均统一在同一核空间中,提高了新样本的可信性;同时自适应插值方式改善了传统人工合成过采样技术(SMOTE)线性生成算法不适用于非线性分类的问题,提高了新样本的多样性。在多个数据集上的实验结果表明,所提算法可以改善不平衡数据的分类准确率,具有更好的稳健性。An adaptive SMOTE-SVM classification algorithm based on kernel space is proposed to improve the classification accuracy of an imbalanced data set.The support vector machine(SVM)is then introduced to obtain support vectors(SV).The nearest neighbors of the minority support vector(SV+)are then calculated based on the kernel distance.Depending on the density distribution of SV+'s nearest neighbour,some new samples are generated by interpolation or extrapolation.Since the explicit expression of new samples is not available,an augmented Gram matrix is constructed using both new samples and the original samples.Thereafter,based on the augmented Gram matrix,a classification decision function is generated via SVM.The improved algorithm unifies sample generation and classification in the same kernel space,which improves the credibility of new samples.Furthermore,since the interpolation method is an adaptive method,it increases the diversity of new samples.Experiments for multiple datasets showed that the proposed algorithm can effectively improve the classification results for imbalanced datasets.

关 键 词:不平衡数据分类 人工合成过采样技术(SMOTE) 核空间 支持向量机 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象