软件缺陷预测中不平衡数据分类算法研究  

Research on imbalanced data classification algorithm in software defect prediction

在线阅读下载全文

作  者:张健[1] 姜虹[2] ZHANG Jian;JIANG Hong(School of Automotive and Mechanical and Electrical Engineering,Hanzhong Vocational and Technical College,Hanzhong 723002,Shaanxi Province,China;School of Computer Science and Engineering,Xi’an University of Technology,Xi’an 710021,China)

机构地区:[1]汉中职业技术学院汽车与机电工程学院,陕西汉中723002 [2]西安工业大学计算机科学与工程学院,西安710021

出  处:《信息技术》2024年第12期149-158,166,共11页Information Technology

基  金:陕西高等职业教育教学改革研究项目(21GY047);汉中职业技术学院教学研究与改革项目(HZZYJY2021003,HZZYGL-2021004)。

摘  要:针对不平衡数据导致软件缺陷预测准确率低的问题,文中提出一种多层次自适应判断合成随机过采样(AJCC-Ram)结合XGBoost集成学习的不平衡数据分类方法(简称XG-AJCC)。该模型采用AJCC-Ram方法和XGBoost方法分别进行不平衡数据预处理和数据分类,从而实现软件缺陷准确预测。实验结果表明,相较于AJCC-Ram采样方法和调参后的XGBoost方法,XG-AJCC预测模型在AEEEM和NASA数据集中的F1均值分别提升了10%和6%左右。对比其他预测模型,该模型在两个数据集中的F1均值明显更高。由此说明,该模型具备较高的分类性能和预测稳定性,能够实现不平衡数据软件缺陷的准确预测。A multi-level Adaptive Judgment Synthesis Random oversampling(AJCC Ram)combined with XGBoost ensemble learning for imbalanced data classification(XG-AJCC)is proposed to address the issue of low accuracy in software defect prediction caused by imbalanced data.This model uses AJCC-Ram method and XGBoost method to pre-process and classify imbalanced data,respectively,in order to achieve accurate prediction of software defects.The experiment results show that compared to the AJCC-Ram sampling method and the adjusted XGBoost method,the XG-AJCC prediction model has increased the F1 mean in the AEEEM and NASA datasets by about 10%and 6%,respectively.Compared to other prediction models,the F1 mean of this model is significantly higher in both datasets.This indicates that this model has high classification performance and prediction stability,and can accurately predict software defects in imbalanced data.

关 键 词:AJCC-Ram XGBoost集成学习 过采样 不平衡数据分类 软件缺陷预测 

分 类 号:TP399[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象