一种基于核学习的非均衡数据分类算法  被引量:2

A Classfication Method for Imbalance Dataset Based on Kernel Learning

在线阅读下载全文

作  者:钟瑛[1] 朱顺痣[1] 曾志强[1] 洪文兴[2] 

机构地区:[1]厦门理工学院计算机科学与技术系,福建厦门361024 [2]厦门大学信息科学与技术学院,福建厦门361005

出  处:《厦门大学学报(自然科学版)》2012年第2期189-194,共6页Journal of Xiamen University:Natural Science

基  金:国家自然科学基金项目(61070151);福建省教育厅A类科技项目(JA11241)

摘  要:提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性.This paper presents a sample approach based on kernel learning to solve classification on imbalance data set by SVM.The method first preprocesses the data by oversampling the minority class in feature space,and then the pre-images of the synthetic samples are found based on a distance relation between feature space and input space.Finally,these pre-images are appended to the original data set to train a SVM.Experiments on real data sets indicate that compared to SMOTE approach,the samples constructed by the proposed method have the higher quality.As a result,the effectiveness of classification by SVM on imbalance data set is improved.On the other hand,the paper also analyzes theoretically approximation of quadratic programming corresponding to SMOTE connecting with SVM methods and Biased SVM,which contributes to the research of classification on imbalance data set by this type of methods.

关 键 词:非平衡数据集 核学习 凸壳 原像 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象