检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王小宁[1] 王佳琪 Wang Xiaoning;Wang Jiaqi
机构地区:[1]中国传媒大学数据科学与智能媒体学院 [2]北京师范大学统计学院
出 处:《统计研究》2024年第11期152-160,共9页Statistical Research
基 金:全国统计科学研究重点项目“大型抽样调查样本整合及其有效性研究”(2020LZ27);中国传媒大学中央高校基本科研业务费专项“基于图神经网络模型的多源社会媒体数据整合方法研究”(CUC230B022)。
摘 要:由于实施简单、样本收集快速,非概率抽样已经成为获取数据的重要方式之一,但非概率样本代表性往往无法得到验证,样本无法多次利用,从而造成了数据资源浪费的问题。融合概率样本及非概率样本进行统计推断可以进一步提升估计的精度,减少数据资源的浪费。由此,本文采用伪设计样本融合思路,提出基于BP神经网络的伪设计样本融合方法,创新性地将BP神经网络引入非概率样本权重构造中,并采用最短距离法对倾向得分生成的初始权重进行二次校准。实验结果显示,本文提出的方法可以获得更高精度的估计结果,在协变量维数较高的情况下仍能保持良好的估计精度。本文不仅为网络时代下海量的高维样本融合分析提供了一个切实的方法,并且为概率样本与非概率样本融合领域的研究提供了一种新的思路。Non-probability sampling has emerged as a critical method for data collection as it's simple and fast.However,non-probabilistic samples are often used in qualitative analysis and used only once,resulting in a waste of data resources.By integrating both probabilistic and non-probabilistic samples in statistical inference,it is possible to enhance estimation accuracy and minimize the waste of data resources.Therefore,this paper adopts the idea of pseudo-design sample integration and proposes a pseudo-design sample integration method based on the BP neural network.A groundbreaking aspect of this paper is using the BP neural network for estimating propensity scores and the shortest distance method to perform secondary calibration on the initial weights generated by propensity scores.Experimental results demonstrate that the proposed method significantly improves estimation accuracy.This is still robust in scenarios with high covariate dimensions.This attempt provides a practical method for the integration of massive high-dimensional data in the network era and a new approach for research in integrating probabilistic and non-probabilistic samples.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.226.52.105