BOS:一种用于不平衡数据学习的边界过采样方法  被引量:3

BOS:a borderline over-sampling method for imbalanced data learning

在线阅读下载全文

作  者:祝团飞[1] 孙婧[2] 李益洲[2] 李梦龙[2] 

机构地区:[1]四川大学计算机学院,成都610065 [2]四川大学化学学院,成都610065

出  处:《四川大学学报(自然科学版)》2012年第3期553-559,共7页Journal of Sichuan University(Natural Science Edition)

基  金:食品中抗生素类药物残留评估的化学与生物信息学方法探索(21175095);基于抗癌药物及其靶标蛋白相互作用的层次网络研究(20972103)

摘  要:不平衡数据遍布于现实生活中许多重要领域,而标准的分类学习算法应对不平衡问题有明显的性能缺陷.为了解决这一问题,提出一种新的少数类边界合成过采样方法BOS.BOS使用新定义的K广义Tomek连接(简称K连接)概念有效定位边界实例,进而基于少数类的K连接分布实现自适应地少数边界合成过采样.实验结果表明,BOS相比已有的几种典型过采样方法提供更优的接受者操作特性曲线下方面积值(AUC),F值(F-Measure)和几何平均值(G-mean).The imbalance data are pervasive in a large number of realworld domains of great importance. Traditional classification learning algorithms behave undesirable in imbalanced problem. To address this problem,the authors proposed a new synthetic minority borderline synthetic oversampling method named as BOS. In BOS, a novel K generalized Tomek links concept was used to locate minority class borderline instances, and adaptively generating minority instances were implemented base on the number of their K links. Experimental results show that BOS performed better than some existing typical methods, with more excellent FMeasure, Gmean and the area under the ROC(AUC) values.

关 键 词:不平衡问题 K广义的Tomek连接 少数类边界合成过采样 

分 类 号:TP181[自动化与计算机技术—控制理论与控制工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象