大规模数据下子抽样模型平均估计理论  被引量:2

Sub-Sampling Model Averaging Theory for Large Scale Data

在线阅读下载全文

作  者:宗先鹏 王彤彤 ZONG Xianpeng;WANG Tongtong(Faculty of Science,Beijing University of Technology,Beijing 100124;School of Mathematical Sciences,Capital Normal University,Beijing 100048)

机构地区:[1]北京工业大学理学部,北京100124 [2]首都师范大学数学科学学院,北京100048

出  处:《系统科学与数学》2022年第1期109-132,共24页Journal of Systems Science and Mathematical Sciences

基  金:北京市自然科学基金重点研究专项(Z210003);国家自然科学基金(11971323,12031016,71973116);首都师范大学交叉科学研究院和生物统计交叉学科研究项目资助课题。

摘  要:随着信息时代的来临,如何从海量数据中快速、有效地挖掘有用信息是目前面临的新挑战.子抽样方法作为大规模数据分析的有效工具,已经受到国内外学者的广泛关注.不过,传统的子抽样方法通常没有考虑到模型的不确定性.当模型假设不正确时,后面的统计推断将会出现偏差,甚至导致错误的结论.为了解决该问题,文章利用频率模型平均的方法构建了子抽样模型平均估计(简称SSMA估计).理论上,文章证明了SSMA估计是全部数据下模型平均估计的一个渐近无偏且相合的估计.另外,我们基于Hansen (2007)的Mallows模型平均方法提出了SSMA估计的权重选择准则,并证明了方差已知和未知时权重估计的渐近最优性.在这些理论性质的研究中,文章同时考虑了模型和抽样设计带来的双重随机性.最后,数值分析进一步说明了所提出方法的有效性.With the development of information age,how to mine useful information from massive data quickly and effectively is a new challenge.As an effective tool for large scale data analysis,sub-sampling method has attracted extensive attention of scholars at home and abroad.However,the traditional sub-sampling method usually does not take into account the uncertainty of the model.When the assumed model is incorrect,the conclusions may be wrong.In order to solve this problem,a subsampling model averaging estimator(SSMA estimator) is constructed by the sampled data.Theoretically,we prove that the SSMA estimator is an asymptotically unbiased and consistent estimator of the model averaging estimator based on full data.In addition,we propose a weight choice criterion for the SSMA estimator,which is based on the Mallows’ criterion proposed by Hansen(2007),and derive the asymptotic optimality of the weight estimator.It is worth mentioning that,in the proofs of these theoretical properties,we consider the double randomness brought by the model and sampling design.Finally,numerical analysis further shows the effectiveness of the proposed method.

关 键 词:大数据分析 子抽样方法 模型平均 Mallows准则 渐近最优性 

分 类 号:O212.2[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象