SMOTE过采样及其改进算法研究综述  被引量:64

Summary of research on SMOTE oversampling and its improved algorithms

在线阅读下载全文

作  者:石洪波[1] 陈雨文 陈鑫 SHI Hongbo;CHEN Yuwen;CHEN Xin(School of Information,Shanxi University of Finance and Economics,Taiyuan,Shanxi,030031)

机构地区:[1]山西财经大学信息学院

出  处:《智能系统学报》2019年第6期1073-1083,共11页CAAI Transactions on Intelligent Systems

基  金:国家自然科学基金资助项目(61801279);山西省自然科学基金项目(201801D121115,2014011022-2)

摘  要:近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。In recent years,the problem of imbalanced classification has received considerable attention.The synthetic minority oversampling technique(SMOTE),a popular method for improving the classification performance of imbal-anced data,adds generated minority samples to change the distribution of imbalanced data sets.In this paper,we first describe the fundamentals,algorithms,and existing problems of SMOTE.Then,with respect to the existing problems of SMOTE,we introduce related research on four types of extension methods and three types of applications.Finally,to provide valuable reference information for the research and application of SMOTE,we analyze the existing difficulties of applying SMOTE to big data,streaming data,a small amount of label data,and other types of data.

关 键 词:不平衡数据分类 SMOTE 算法 K-NN 过采样 欠采样 高维数据 分类型数据 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象