检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:沈赛拉 钟锋[1] 梁兴 陈思悦 沈诗钰 陈璐静 Shen Saila;Zhong Feng;Liang Xing;Chen Siyue;Shen Shiyu;Chen Lujing(Department of Computer Science and Technology,School of International Business,Zhejiang International Studies University,Hangzhou,Zhejiang 310023,China;Lejian Health Technology Group Co.,Ltd)
机构地区:[1]浙江外国语学院国际商学院计算机科学与技术系,浙江杭州310023 [2]乐荐健康科技集团有限公司
出 处:《计算机时代》2023年第5期15-19,共5页Computer Era
基 金:2020年浙江省教育厅一般科研项目“基于深度学习的健康档案构建与慢性病预测研究”(Y202045445);2019年度博达青年教师科研提升专项计划“基于深度学习的健康体检大数据慢性病预测模型研究”;2020年国家级大学生创新创业训练计划项目“杭州市居民慢性病统计分析与体检指标相关性研究”(202014275007);2020浙江省新苗计划“基于随机森林算法的杭州市慢性病关联性研究”(2020R418009)。
摘 要:为进行高血压的危险因素分析与预测,提出一种基于随机森林和梯度提升决策树的模型。首先基于体检报告数据进行缺失值处理、one-hot编码、归一化、数据初步聚类等预处理;然后针对数据样本不均衡的特性,利用SOMTE算法进行重采样,基于随机森林得到特征重要性评分并进行特征选择;最后基于排名前20的特征值,利用梯度提升决策树算法产生预测模型。模型分析结果显示了高血压的危险性因素。经数据集交叉验证,模型准确率可以达到84.51%,具有较高的应用价值。To analyze and predict the risk factors of hypertension,a model based on the Random Forest and Gradient Boosting Decision Tree is proposed.Firstly,the missing value handling,one-hot encoding,data normalization and data cluster methods are applied for data preprocessing based on the medical examination report data.Then,the SOMTE resampling algorithm is used to solve the imbalanced class problem,and the feature evaluation and selection are realized through the Random Forest.Finally,the prediction model is training by the Gradient Boosting Decision Tree based on the top 20 features.The analysis result shows the risk factors of hypertension.The accuracy of the model can reach 84.51%by the cross validation of the dataset.It has a good value in application field.
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.117