不平衡数据集分类方法综述  被引量:45

Review of Classification Methods for Unbalanced Data Sets

在线阅读下载全文

作  者:王乐 韩萌[1] 李小娟 张妮 程浩东 WANG Le;HAN Meng;LI Xiaojuan;ZHANG Ni;CHENG Haodong(School of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China)

机构地区:[1]北方民族大学计算机科学与工程学院,银川750021

出  处:《计算机工程与应用》2021年第22期42-52,共11页Computer Engineering and Applications

基  金:国家自然科学基金(62062004);宁夏自然科学基金(2020AAC03216);北方民族大学研究生创新项目(YCX20082)。

摘  要:不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于K近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(SyntheticMinorityOver-sampling Technology,SMOTE)、支持向量机(SupportVectorMachine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。The characteristics of unbalanced data sets lead to many difficult problems in classification.The classification methods of unbalanced data sets are analyzed and summarized.Firstly,the classification methods of unbalanced data sets are introduced from three perspectives of under-sampling,over-sampling and mixed sampling in detail.In the under-sampling method,it is divided into three technical methods based on K-Nearest Neighbor(KNN),Bagging and Boosting.In the over-sampling method,the classification method is analyzed from the perspectives of Synthetic Minority Over-sampling Technology(SMOTE)and Support Vector Machine(SVM).The advantages and disadvantages of the algorithm are com-pared,and the performance of the algorithm is analyzed and summarized under the same data sets.Then,the classification methods of unbalanced data sets are summarized from four aspects:deep learning,extreme learning machine,cost sensi-tivity and feature selection.Finally,the future work direction is prospected.

关 键 词:不平衡数据集 分类 采样方法 K近邻(KNN) 合成少数过采样技术(SMOTE) 深度学习 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象