数据挖掘方法应用于调查数据的抽样权重问题——基于放回比例抽样的再抽样方法  被引量:4

The Study on Handling Sampling Weights Associated with the Survey Data When Applying Data Mining Methods——Based on the Method of Re-sampling with PPWWR

在线阅读下载全文

作  者:谢佳斌[1] 金勇进[1] 谢邦昌[2,3,4,5,1] 

机构地区:[1]中国人民大学统计学院 [2]中国台湾辅仁大学统计信息学系 [3]中国台湾辅仁大学应用统计所 [4]中华资料采矿协会(台湾) [5]厦门大学经济学院

出  处:《统计研究》2009年第4期101-104,共4页Statistical Research

摘  要:在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计。实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。The problem of how to deal with sampling weights appears when applying data mining methods to survey data. We suggest the method of re-sampling with probability proportional to the weights with replacement (PPWWR) to achieve post selfweighting design. Then, some ordinary statistical graphics and data mining algorithms can be used directly, ignoring the sample weights. Next, based on the survey data of GuiZhou Province from the survey of public understanding of science 2007, we discussed the sample size problem of the PPWWR re-sampling method by simulation and find max( n ,5% N) is an appropriate sample size. This conclusion might be useful for the implementation of data mining on other large and complex survey data.

关 键 词:调查数据 抽样权重 数据挖掘 PPWWR再抽样 

分 类 号:C811[社会学—统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象