基于logistic回归模型的大数据分布式两步子抽样算法被引量：6

Distributed Two-step Subsampling Algorithm for Logistic Regression Model

作　　者：李莉莉[1] 杜梅慧张璇 LI Li-li;DU Mei-hui;ZHANG Xuan(School of Economics,Qingdao University,Qingdao 266100,China;School of Economics,Nankai University,Tianjin 300071,China;China National of Standardization,Beijing 100088,China)

机构地区：[1]青岛大学经济学院,山东青岛266100 [2]南开大学经济学院,天津300071 [3]中国标准化研究院,北京100088

出　　处：《数理统计与管理》2022年第5期858-866,共9页Journal of Applied Statistics and Management

基　　金：国家社科基金项目(2019BTJ028)。

摘　　要：随着大数据时代的到来,分布式存储系统被广泛应用,这使得数据的分析面临较大的挑战。本文主要基于文[1]提出的两步子抽样算法思想,提出分布式两步子抽样算法,利用该算法得到的参数估计量具有一致性和渐近正态性。采用数值模拟及真实数据预测,进一步对算法进行评估,结果表明,分布式两步子抽样算法与简单随机抽样算法相比精度更高,与全样本相比,在保证精度损失很小的基础上,节约了CPU运行时间,提高了算法效率。With the advent of the era of big data,distributed storage systems are widely used,which brings greater challenges for data analysis.Based on the idea of two-step algorithm proposed by Wang et al.(2018),the distributed two-step subsampling algorithm was proposed in this paper.The asymptotic normality and convergence rate of the estimators are presented.Evaluate the performance of the distributed two-step subsampling algorithm by using numerical simulations and real datasets.The results show that the distributed two-step subsampling algorithm always has higher accuracy compared to simple random sampling algorithm.Compared to the full data approach it takes significantly less computing time on the basis of high accuracy.

关键词：大数据分布式存储两步子抽样算法 LOGISTIC回归模型

分类号：O212[理学—概率论与数理统计]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于logistic回归模型的大数据分布式两步子抽样算法被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于logistic回归模型的大数据分布式两步子抽样算法 被引量：6

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索

基于logistic回归模型的大数据分布式两步子抽样算法被引量：6