检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王鑫 廖彬 李敏[1,2] 孙瑞娜[1,3,4] WANG Xin;LIAO Bin;LI Min;SUN Rui-na(College of Statistics and Data Science,Xinjiang University of Finance and Economics,Urumqi 830012,China;School of Information Science and Engineering,Xinjiang University,Urumqi 830008,China;Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China;School of Networks Security,University of Chinese Academy of Sciences,Beijing 100093,China)
机构地区:[1]新疆财经大学统计与数据科学学院,乌鲁木齐830012 [2]新疆大学信息科学与工程学院,乌鲁木齐830008 [3]中国科学院信息工程研究所,北京100093 [4]中国科学院大学网络空间安全学院,北京100093
出 处:《小型微型计算机系统》2022年第9期1877-1885,共9页Journal of Chinese Computer Systems
基 金:国家自然科学基金项目(61562078)资助;新疆天山青年计划项目(2018Q073)资助;新疆高校研自科项目(XJEDU2021Y037)资助.
摘 要:人工智能在辅助医疗诊断方面得到广泛关注,对糖尿病预测的相关研究是近年来关注的一个热点问题.以皮马印第安人糖尿病数据集为研究对象,首先,对原始数据进行缺失值填充、异常值分析、标准化处理等工作的基础上,将预处理后的数据作为LightGBM训练模型的输入;其次,与已有工作中基于SVM、随机森林、决策树以及Xgboost等多种机器学习模型进行实验对比,结果表明本文模型在准确率、精确率、召回率、F1值、AUC值5项性能指标上均明显优于对比模型;最后,引入SHAP模型增强模型的可解释性,同时综合比较了LightGBM和Xgboost的特征重要性排序结果,识别出了影响糖尿病的主要因素,为糖尿病的疾病诊断提供决策参考.Artificial Intelligence has received widespread attention in assisted Medical Diagnosis,recently,specially research on Diabetes prediction is a hot issue.We taking the Pima Indian Diabetes Dataset as the research object.Firstly,based on the missing value filling,outlier analysis,and standardization of the original data,after feature extraction process,the data is used as the input of the LightGBM training model;There are experiments based on various machine learning models such as SVM,Random forest,Decision tree and Xgboost in this work.The results show that the model in this paper is excellent in Accuracy,Precision,Recall,F1 value and AUC value.Finally,the introduction of the SHAP model enhances the model′s interpretability,integrates with the feature importance of LightGBM and Xgboost,which identified the key factors affecting Diabetes and provides decision-making reference for the Diagnosis.
关 键 词:LightGBM模型 SHAP模型 糖尿病预测 特征分析
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222