基于Boosting的不平衡数据分类算法研究  被引量:17

Research on Boosting-based Imbalanced Data Classification

在线阅读下载全文

作  者:李秋洁[1] 茅耀斌[1] 王执铨[1] 

机构地区:[1]南京理工大学自动化学院南京210094

出  处:《计算机科学》2011年第12期224-228,共5页Computer Science

基  金:国家自然科学基金(60974129,70931002)资助

摘  要:研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。This paper aimed to investigate boosting-based imbalanced data classification algorithms. Through the deep a- nalysis of existing algorithms, a weight-sampling boosting algorithm was proposed. Changing the data distribution by weight sampling, the trained classifier was made suitable for imbalanced data classification. The natural of the proposed algorithm is that the loss function of naive boosting is adjusted by the sampling function and the positive examples are emphasized so that the classifier focuses on correctly classifying these examples and finally the recognition rate of posi tive examples is improved. The new algorithm is simple and practical and has been shown to outperform naive boosting and previous algorithms in the problem of imbalanced data classification on the UCI data sets.

关 键 词:不平衡数据分类 BOOSTING 采样 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象