检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京服装学院信息工程学院,北京100029 [2]宁夏大学信息工程学院,银川750021
出 处:《计算机应用研究》2018年第2期375-380,共6页Application Research of Computers
基 金:国家自然科学基金资助项目(61502279;61363018);山东省自然科学基金资助项目(ZR2015FM013);北京市教委科技计划项目(KM201710012008)
摘 要:在线聚集通过统计计算估计查询结果,能够在查询完成前给用户反馈,在大数据分析领域具有重要意义。现有研究工作采用统一随机采样策略,当查询出现小分组或低选择率时,导致估计结果不准确及收敛速度缓慢。针对这一问题,提出了结合负载特征和数据分布进行多维分层采样的有偏采样策略,并结合大数据处理平台Storm设计了结果估计和置信区间计算方法。实验证明所提出的方案有效提高了在线聚集估计结果的准确度,并且具有良好的扩展性。Online aggregation estimates the query results through statistical computing, and it can provides feedback to users before the query finishes, which is of paramount importance in the field of big data analysis. The existing studies always adopt uniform sampling,which results in estimate inaccuracy and slow convergence. This paper proposed the multi-dimension strati- fied sampling technique based on workload characteristics and data distribution, and designed the result estimate and confi- dence interval compute algorithms based on Storm. The experiments demonstrate that the proposed online aggregation technique improves the accuracy of estimated results in online aggregation with efficient scalability.
分 类 号:TP392[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28