单位名录库更新:互联网大数据源及其数据质量评估  被引量:9

Business Register Database Revision:Internet Data Sources and Data Quality Assessment

在线阅读下载全文

作  者:黄恒君 陶然[2] 傅德印 Huang Hengjun Tao Ran Fu Deyin

机构地区:[1]兰州财经大学统计学院 [2]国家统计局统计科学研究所 [3]兰州财经大学

出  处:《统计研究》2017年第1期12-22,共11页Statistical Research

基  金:国家自然科学基金项目"基于涵盖误差的我国周期性普查数据质量评估方法:理论与应用研究"(71301033);国家社会科学基金青年项目"基于大数据整合的空气质量测度方法研究"(14CTJ009);全国统计科研计划项目"基于普查涵盖误差测量技术的基本单位名录库维护与更新研究"(2011LX003);陇原青年创新人才扶持计划项目"基于大数据整合的‘废旧数据’应用研究"(14GSD95);甘肃省财政厅高校基本科研业务费项目"大数据整合下的统计调查技术及其经济应用研究"(GZ14007)资助

摘  要:在大数据时代,互联网数据资源的充分利用对提高政府统计能力的影响是不可忽视的,但互联网数据质量问题值得探讨。以单位名录库为研究对象,本文讨论了互联网数据作为单位名录库更新数据源的质量评估方法,从多维度视角比较分析了互联网数据源与传统数据源的数据质量;从准确性方面探讨了互联网数据源的数据质量评估框架,给出了单源质量评估、多源整合评估、事件信息辅助评估的做法和要点。分析结果表明,互联网数据源能够完成名录库"及时更新"的任务,可以辅助实现名录库更新的"真实准确"和"不重不漏",但不足以生成"统一完整"的名录库。同时,本文利用大众点评网、百度糯米网、地理信息系统等异源异构数据整合,给出了一个餐饮业名录库更新的数据质量评估实例。Internet data sources should be considered and utilized for enhancing official statistical ability in the era of Big Data. However, the quality of these data sources is questionable. In this paper, we attempt to investigate the quality of data generated from Internet sources. The quality issues of the Internet data sources as well as traditional data sources are compared from the multi-dimensional perspective, a quality evaluation framework mainly aims at accuracy for Internct data source is proposed, and key points of quality evaluation are given out, which include single source quality assessment, multi-sources integration evaluation, and event- assist assessment approaches. The results show that the Internet data sources have the ability for assisting to update business register database timely and accurately, but fail to generate unified one. An application of multi-sources integration is also involving in this paper.

关 键 词:大数据 名录库 政府统计 数据质量 

分 类 号:C816[社会学—统计学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象