基于乳腺癌数据的插补方法比较研究  

A Comparative Study of Interpolation Methods Based on Breast Cancer Data

作  者:杨丹 左俊希 

机构地区:[1]重庆理工大学理学院,重庆

出  处:《国际会计前沿》2025年第1期10-19,共10页Frontiers of International Accounting

基  金:重庆理工大学研究生创新项目资助,为重庆理工大学研究生教育高质量发展行动计划资助成果。项目编号:gzlcx20232084;项目类选:校级全额资助一般项目;成果单位:重庆理工大学。

摘  要:缺失数据一直是数据分析工作中面临的难题之一,缺失数据的存在会导致模型性能的损耗,因此尽可能准确地预测填补缺失的方法变得尤为重要。本文将依托于“威斯康星乳腺癌诊断”数据集进行常见插补方法的比较研究,首先将原始数据按照完全随机缺失机制进行缺失处理,然后通过建立Logistic模型、支持向量机模型两种不同的模型,在不同缺失率(10%、30%)、不同协变量缺失个数(3个、6个)条件下,比较均值插补、KNN插补、多重插补3种不同插补方法的性能。同时,将准确率、F1值、AUC值作为衡量插补效果的量化指标。本文的实验结果表明,支持向量机模型对于乳腺癌数据集的拟合效果明显好于Logistic模型;同时对于所有的插补方法都会随着缺失率和缺失协变量的个数的增加,而性能发生降低。插补性能下降幅度却不相同,多重插补的性能明显更稳定,下降幅度最小,同时多重插补的插补效果综合来看也是最好的。对数据进行多重插补后拟合的Logistic模型和支持向量机模型在缺失率为30%、缺失协变量个数为6个的时候,对应准确率、F1值、AUC值分别为0.894、0.923、0.872和0.923、0.94、0.908。因此得出,基于生成多个数据集来模拟缺失数据不确定性的多重插值,在进行完全随机缺失处理后的“威斯康星乳腺癌诊断”数据集上相较于均值插补和KNN插补,其插补的稳健性和可信度明显更高。Missing data has always been one of the challenges faced in data analysis. The presence of missing data can lead to a loss of model performance, so it is particularly important to predict and fill in missing data as accurately as possible. This paper will rely on the data set of “Wisconsin Breast Cancer Diagnosis” to carry out a comparative study of common interpolation methods. First, the original data will be deleted according to the complete random deletion mechanism. Then, by establishing two di

关 键 词:缺失数据 多重插补 KNN插补 均值插补 

分 类 号:R73[医药卫生—肿瘤]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象