基于随机森林和梯度提升决策树的高血压分析预测  被引量:1

Analyze and predict the risk factors of hypertension based on the Random Forest and Gradient Boosting Decision Tree

在线阅读下载全文

作  者:沈赛拉 钟锋[1] 梁兴 陈思悦 沈诗钰 陈璐静 Shen Saila;Zhong Feng;Liang Xing;Chen Siyue;Shen Shiyu;Chen Lujing(Department of Computer Science and Technology,School of International Business,Zhejiang International Studies University,Hangzhou,Zhejiang 310023,China;Lejian Health Technology Group Co.,Ltd)

机构地区:[1]浙江外国语学院国际商学院计算机科学与技术系,浙江杭州310023 [2]乐荐健康科技集团有限公司

出  处:《计算机时代》2023年第5期15-19,共5页Computer Era

基  金:2020年浙江省教育厅一般科研项目“基于深度学习的健康档案构建与慢性病预测研究”(Y202045445);2019年度博达青年教师科研提升专项计划“基于深度学习的健康体检大数据慢性病预测模型研究”;2020年国家级大学生创新创业训练计划项目“杭州市居民慢性病统计分析与体检指标相关性研究”(202014275007);2020浙江省新苗计划“基于随机森林算法的杭州市慢性病关联性研究”(2020R418009)。

摘  要:为进行高血压的危险因素分析与预测,提出一种基于随机森林和梯度提升决策树的模型。首先基于体检报告数据进行缺失值处理、one-hot编码、归一化、数据初步聚类等预处理;然后针对数据样本不均衡的特性,利用SOMTE算法进行重采样,基于随机森林得到特征重要性评分并进行特征选择;最后基于排名前20的特征值,利用梯度提升决策树算法产生预测模型。模型分析结果显示了高血压的危险性因素。经数据集交叉验证,模型准确率可以达到84.51%,具有较高的应用价值。To analyze and predict the risk factors of hypertension,a model based on the Random Forest and Gradient Boosting Decision Tree is proposed.Firstly,the missing value handling,one-hot encoding,data normalization and data cluster methods are applied for data preprocessing based on the medical examination report data.Then,the SOMTE resampling algorithm is used to solve the imbalanced class problem,and the feature evaluation and selection are realized through the Random Forest.Finally,the prediction model is training by the Gradient Boosting Decision Tree based on the top 20 features.The analysis result shows the risk factors of hypertension.The accuracy of the model can reach 84.51%by the cross validation of the dataset.It has a good value in application field.

关 键 词:慢性病 高血压 随机森林 梯度提升决策树 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象