污染数据的稳健稀疏成组变量选择方法研究  被引量:3

Study on Robust Sparse Group Variable Selection Method for Contaminated Data

在线阅读下载全文

作  者:李扬[1,2] 许文甫 马双鸽[2,3] L.I Yang;XU Wen- fu;MA Shuang -ge(a.Ccntcr for Applicd Statistics,b.School of Statistics,1.Rcnmin Univcrsity of China,Bcijing 100872,China;Dcpartment of Biostatistics,Yalc Univcrsity,Connccticut,18097 Amcrica)

机构地区:[1]中国人民大学应用统计科学研究中心,北京100872 [2]中国人民大学统计学院,北京100872 [3]耶鲁大学生物统计系,美国48097

出  处:《统计与信息论坛》2018年第6期26-34,共9页Journal of Statistics and Information

基  金:全国统计科学研究计划重大项目<基于图模型的大数据方法及应用>(2016LD01);国家自然科学基金面上项目<问卷分割设计与分析方法研究>(71771211)

摘  要:实证研究中的真实数据往往不完全符合模型的分布假设,存在污染数据的情况。大数据时代,大规模数据集的污染情况更加普遍。针对当数据存在不同来源污染时,构建基于最小密度势差异准则的成组Bridge模型,并设计有效算法完成稀疏成组变量选择。数值模拟研究说明该方法在不同污染数据情形及污染比例下具有良好的稳健性与稀疏性。关于婴儿出生体重影响因素的实证研究展示了该方法在应用研究中的优秀表现。Real data,which is contaminated,in the empirical research is usually not fully accord the distributional assumptions from the model.It is important to established a robust variable selection and estimation method.In this paper,we propose a minimum density power divergence variable selection model with group Bridge penalization.Numerical study shows that the proposed method has good performance on both robustness and sparsity under different pollution rates.Empirical study on the influencing factors of infant birth weight demonstrates the excellent performance of this method in applied research.

关 键 词:污染数据 变量选择 稳健 稀疏成组惩罚 

分 类 号:O213[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象