融合统计思想的大数据算法  被引量:5

Statistical Algorithms for Big Data

在线阅读下载全文

作  者:李扬[1,2,3] 张长[2] 朱建平 Li Yang;Zhang Zhang;Zhu Jianpping

机构地区:[1]中国人民大学应用统计科学研究中心 [2]中国人民大学统计学院 [3]中国人民大学统计咨询研究中心 [4]厦门大学管理学院MBA中心 [5]厦门大学数据挖掘研究中心

出  处:《统计研究》2018年第7期125-128,共4页Statistical Research

基  金:中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)“生物医学大数据的统计方法基础研究”(15XNI011)的阶段性成果.

摘  要:海量化的数据规模作为大数据的第一个特征,带来了计算上的首要挑战。大规模样本不一定能够完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法为例讨论了兼具计算效率提升和不确定性评价的可并行计算的大数据统计算法设计,通过比较分析探讨设计思想与未来的研究方向。The large volume of massive dataset is the key feature of Big Data which brings the main challengers for computing. The dataset with large sample size cannot always stands for the population,therefore the algorithms design for Big Data should consider how to reduce computing cost and how to characterize the uncertainty of the estimated results. In this paper,we study the design of statistical algorithms for massive dataset considering both computing efficiency and uncertainty assessment. Both the Bag of Little Bootstrap( BLB) and Subsampled Double Bootstrap( SDB) algorithms are discussed as illustrative examples.Additionally,a comparison of BLB and SDB is discussed with conclusions of future work.

关 键 词:自助法 不确定性 大规模数据 并行计算 

分 类 号:O213[理学—概率论与数理统计]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象