基于边界混合采样的非均衡数据处理算法  被引量:19

Imbalanced data processing algorithm based on boundary mixed sampling

在线阅读下载全文

作  者:冯宏伟[1] 姚博[1] 高原[2] 王惠亚 冯筠[1] FENG Hong-wei YAO Bo GAO Yuan WANG Hui-ya FENG Jun(School of Information Science and Technology, Northwest University, Xi'an 710127, China School of Economics and Management, Northwest University, Xi'an 710127, China School of Mathematics, Northwest University, Xi'an710127, China)

机构地区:[1]西北大学信息科学与技术学院,西安710127 [2]西北大学经济管理学院,西安710127 [3]西北大学数学学院,西安710127

出  处:《控制与决策》2017年第10期1831-1836,共6页Control and Decision

基  金:陕西省教育厅科学研究计划自然科学专项项目(15JK1738);陕西省自然科学基金项目(2014JQ8367)

摘  要:针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进"变异系数"找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本进行随机欠采样,以期达到训练数据基本平衡的目标.实验结果表明,BMS方法比其他3种流行的非均衡数据处理方法在对7个公开数据集的分类性能上平均提高了5%左右,因此,该方法可以广泛应用于非均衡数据的处理和分类中.Aiming to solve the poor performance of imbalanced data classification, an novel imbalanced data classification algorithm based boundary mixed sampling(BMS) is proposed. This method firstly introduces coefficient of variation is to find out the boundary and non-boundary samples and then deal with them in different ways. The minority samples in boundary are over sampled while the non-boundary majority ones are under sampled to achieve a basic balance of samples. Experimental results show that the proposed method achieves the better classification performance by 5% than other three popular methods in seven UCI datasets, thus this method can be widely used in imbalanced data processing and classification.

关 键 词:非均衡数据 欠采样 变异系数 分类 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象