基于聚类和混合采样的软件缺陷预测研究  被引量:2

Software Defect Prediction Based on Clustering and Mixed Sampling

在线阅读下载全文

作  者:张彤[1] 李英梅[1] Zhang Tong;Li Yingmei(Harbin Normal University)

机构地区:[1]哈尔滨师范大学

出  处:《哈尔滨师范大学自然科学学报》2022年第2期58-63,共6页Natural Science Journal of Harbin Normal University

摘  要:针对软件缺陷预测中数据不平衡问题,提出一种混合采样方法MSKsmote.首先将不平衡的数据划分为噪音点,危险点和安全点,对数据中的噪音点进行清除,随后利用K-means聚类算法将相似数据归为同一个簇,将属于少数类簇且是危险点的多数类数据进行清除,接着再对危险点中少数类数据进行过采样以达到数据的平衡.MSKsmote算法以AEEEM数据集作为评测对象,以F_(1)值作为评测指标.实验证明:MSKsmote算法相较于其他经典的采样方法有着更好的预测效果.Aiming at the problem of data imbalance in software defect prediction,a hybrid sampling method msksmote is proposed in this paper.Firstly,the unbalanced data is divided into noise points,danger points and safety points,and the noise points in the data are cleared.Then,the K-means clustering algorithm is used to classify the similar data into the same cluster,and the majority data belonging to a few clusters and dangerous points are cleared.Then,the minority data in the danger points are oversampled to achieve data balance.Msksmote algorithm takes aeeem data set as evaluation object and F_(1)value as evaluation index.Experiments show that msksmote algorithm has better prediction effect than other classical sampling methods.

关 键 词:软件缺陷预测 类不平衡 聚类 混合采样 

分 类 号:TP311.53[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象