基于推进的非平衡数据分类算法研究  

Research on classification algorithms in imbalanced data based on boosting

在线阅读下载全文

作  者:潘俊[1] 李宏[1] 李博[1] 

机构地区:[1]中南大学信息科学与工程学院,长沙410083

出  处:《计算机工程与应用》2009年第25期138-140,156,共4页Computer Engineering and Applications

摘  要:在现实世界的数据分类应用中,通常会遇到数据不平衡的问题,即数据中一类数据的数量要大于另一类数据的数量。在目前针对非平衡数据的分类问题的解决方案中,推进算法因其能通过多次迭代提高少数类的分类指标来提高分类器的整体性能而有着较好的应用前景。从分析非平衡数据分类性能差的原因入手,通过抑制过度拟合与对少数类的F度量的控制对经典推进算法进行改进,提出了一种改进算法RIFBoost,然后将算法在WEKA系统上与几个传统的分类算法进行了比较。实验结果表明,RIFBoost算法在保留整体精度的同时对少数类的F度量的性能有了一定的提高。The application of data classification in reality usually confronts to a problem named imbalanced data that the amount of one class is larger than another class.At the present time,as one of the solutions to classification of imbalanced data,Boosting has a great prospect because the whole performance of classification can be improved by increasing the minority class's FMeasure in the form of iteration.This paper will analyze the reason that the performance of imbalanced data is weak,and improve this classical Boosting algorithm by restraining from overfitting and controlling the F-Measure of minority class,and propose an improved algorithm named RIFBoost,and then compare this new algorithm with some traditional classified algorithms on WEKA system.The experiment result indicates that RIFBoost can increase the F-Measure of minority class while maintaining the whole of classification' s precision.

关 键 词:非平衡数据 推进算法 怀卡托智能分析环境(WEKA)系统 F度量 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象