惩罚logistic回归用于高维变量选择的模拟评价  被引量:9

在线阅读下载全文

作  者:孙红卫[1,2] 杨文越[2] 王慧[1] 罗文海[2] 胡乃宝[2] 王彤[1] 

机构地区:[1]山西医科大学卫生统计学教研室,030001 [2]滨州医学院卫生统计学教研室

出  处:《中国卫生统计》2016年第4期607-611,共5页Chinese Journal of Health Statistics

基  金:国家自然科学基金资助(81473073);国家自然科学基金青年基金(81502891)

摘  要:目的 logistic回归是生物医学研究中常用的方法,可以进行影响因素筛选、概率预测、分类等。高通量测序技术得到的数据给高维变量选择问题带来挑战。惩罚logistic回归可以对高维数据进行变量选择和系数估计,且其有效的算法保证了计算的可行性。方法本文介绍了常用的惩罚logistic算法如LASSO(least absolutes shrinkage and selection operator)、EN(elastic net)、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)以及SIS(sure independence screening)等,并用模拟数据对各方法进行评价。结果 (1)各方法的结果与自变量间的相关程度有关,不同惩罚logistic回归的精确性与自变量间的相关程度有关,如果相关较高,LASSO或EN的结果较好,而在相关较低时,MCP或SCAD结果较好;(2)结合SIS的方法倾向于少选变量,误选率低,但敏感度也低,而LASSO、MCP、SCAD选择变量较多,误选率高,但敏感度较高;(3)当自变量间低度相关时,SIS的三种方法结果非常接近,但相关较高时,SIS+LASSO的结果表现较好。结论采用非小细胞型肺癌的基因数据集进行实例分析,并表明如何根据模拟实验的结论,在多种方法的不同结果间进行选择。

关 键 词:高维变量选择 惩罚 LOGISTIC 回归 LASSO MCP SCAD SIS 

分 类 号:R195.1[医药卫生—卫生统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象