检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:吴磊[1] 欧阳赫明 WU Lei;OUYANG He-ming(School of Information,North China University of Technology,Beijing 100144,China)
出 处:《软件导刊》2020年第7期99-102,共4页Software Guide
基 金:北京市社会科学基金项目(18JYB015,18SRB003)。
摘 要:随着各类医疗健康信息数量的增长,如何利用医疗健康大数据辅助临床诊疗和科研,已经成为各医疗科研机构普遍关注的问题。针对该问题,设计并实现了一种基于Spark的分布式健康大数据分析系统。系统采用大数据分析技术并基于随机森林模型,应用多个弱分类器将多个决策树获得的结果进行集成,基于该模型实现了睡眠质量预测,同时还研究了权重较高的影响因子。最终实验预测准确率达96.84%。实验结果对于睡眠质量分析具有一定参考意义,且系统能够较好地满足健康大数据的分析处理需求。With the growth of various types of medical health information,how to use medical health big data to assist clinical diagnosis and research has become a common concern of medical research institutions.Aiming at this problem,we propose a distributed health big data analysis system based on Spark.The system uses big data analysis technology based on the random forest model,and uses multiple weak classifiers to integrate the results obtained by multiple decision trees.Based on the model,the sleep quality prediction is realized,and the influence factors with higher weight are also studied.The final experimental prediction accuracy rate reached 96.84%.The experimental results have certain reference significance for the analysis of sleep quality,and the system can better meet the analysis and processing needs of healthy big data.
关 键 词:大数据 大数据分析 Apache Spark 智能健康 机器学习 随机森林
分 类 号:TP319[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.112