完全随机缺失条件下连续型随机变量数据缺失插补方法的比较研究  被引量:6

在线阅读下载全文

作  者:张彪[1] 韩伟[1] 庞海玉[1] 薛芳[1] 厚磊[1] 王子兴[1] 王钰嫣 姜晶梅[1] 

机构地区:[1]中国医学科学院基础医学研究所,北京协和医学院基础学院流行病学与卫生统计学系,100005

出  处:《中国卫生统计》2015年第4期605-608,612,共5页Chinese Journal of Health Statistics

摘  要:目的探讨完全随机缺失条件下连续型随机变量数据缺失对研究结果的影响,对各方法插补效果进行比较。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟单变量(吸烟年数sy)缺失,采用了7种方法处理单变量缺失;模拟多变量(吸烟年数sy和每天吸烟支数smd)缺失,采用了4种方法处理多变量缺失。对插补效果从缺失变量均值的变化、插补精确性及插补后模型参数的变化三个方面进行评价。结果单变量缺失:各缺失率下,回归插补sy均值的偏差最小,MI/REG、MI/PMM和MI/MCMC插补后模型参数的偏差均较小,删除法sy均值与模型参数的偏差均最大。多变量缺失:各缺失率下,回归插补sy均值的偏差最小,删除法最大;条件均值插补smd均值的偏差最小,MI/MCMC最大;条件均值插补模型参数的偏差最小,MI/MCMC最大。结论用不同指标对各方法插补效果进行评价会得出不同的结果,应根据统计分析的目的和关注点选择最合适的缺失数据处理方法。总体来看,插补法处理缺失数据的效果优于删除法,缺失率越高,优势越显著。

关 键 词:缺失数据 多重插补 

分 类 号:R195.1[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象