融合LightGBM与SHAP的糖尿病预测及其特征分析方法  被引量:19

Combination of LightGBM and SHAP for Diabetes Prediction and Feature Analysis

在线阅读下载全文

作  者:王鑫 廖彬 李敏[1,2] 孙瑞娜[1,3,4] WANG Xin;LIAO Bin;LI Min;SUN Rui-na(College of Statistics and Data Science,Xinjiang University of Finance and Economics,Urumqi 830012,China;School of Information Science and Engineering,Xinjiang University,Urumqi 830008,China;Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;School of Networks Security,University of Chinese Academy of Sciences,Beijing 100093,China)

机构地区:[1]新疆财经大学统计与数据科学学院,乌鲁木齐830012 [2]新疆大学信息科学与工程学院,乌鲁木齐830008 [3]中国科学院信息工程研究所,北京100093 [4]中国科学院大学网络空间安全学院,北京100093

出  处:《小型微型计算机系统》2022年第9期1877-1885,共9页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(61562078)资助;新疆天山青年计划项目(2018Q073)资助;新疆高校研自科项目(XJEDU2021Y037)资助.

摘  要:人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考.Artificial Intelligence has received widespread attention in assisted Medical Diagnosis,recently,specially research on Diabetes prediction is a hot issue.We taking the Pima Indian Diabetes Dataset as the research object.Firstly,based on the missing value filling,outlier analysis,and standardization of the original data,after feature extraction process,the data is used as the input of the LightGBM training model;There are experiments based on various machine learning models such as SVM,Random forest,Decision tree and Xgboost in this work.The results show that the model in this paper is excellent in Accuracy,Precision,Recall,F1 value and AUC value.Finally,the introduction of the SHAP model enhances the model′s interpretability,integrates with the feature importance of LightGBM and Xgboost,which identified the key factors affecting Diabetes and provides decision-making reference for the Diagnosis.

关 键 词:LightGBM模型 SHAP模型 糖尿病预测 特征分析 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象