完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究  被引量:7

在线阅读下载全文

作  者:张彪[1] 韩伟[1] 庞海玉[1] 薛芳[1] 厚磊[1] 王子兴[1] 王钰嫣 姜晶梅[1] 

机构地区:[1]中国医学科学院基础医学研究所&北京协和医学院基础学院流行病学与卫生统计学系,100005

出  处:《中国卫生统计》2015年第5期903-905,907,共4页Chinese Journal of Health Statistics

摘  要:目的探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。

关 键 词:分类变量 数据缺失 多重插补 

分 类 号:R195[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象