不确定性数据上聚合查询的近似算法  

Approximation algorithms for aggregate queries on uncertain data

在线阅读下载全文

作  者:陈东辉 陈岭[1] 王俊凯 吴勇 王敬昌 

机构地区:[1]浙江大学计算机科学与技术学院,杭州310027 [2]浙江鸿程计算机系统有限公司,杭州310009

出  处:《清华大学学报(自然科学版)》2018年第3期231-236,共6页Journal of Tsinghua University(Science and Technology)

基  金:中国工程科技知识中心资助项目(CKCEST-2014-1-5);国家自然科学基金资助项目(61332017);浙江省科技计划项目(2015C33002)

摘  要:随着大数据时代的到来,不确定性数据上的聚合查询面临形式多样、计算复杂等挑战。该文将不确定性数据上聚合查询的结果定义为所有可能的值以及对应的概率。基于动态规划思想的求解“和”的分布(distribution sum,DSUM)精确算法,提出贪心的“和”的分布(greedy distribution sum,GDSUM)和折半合并的“和”的分布(binary merge distribution sum,BMDSUM)的近似算法,这2种算法都能应用于元组级不确定性模型和属性级不确定性模型;并通过理论分析,给出算法的时间和空间复杂度以及最终结果的误差范围。实验结果表明:误差设定为1%时,2种近似算法分别能缩短执行时间15%~21%和22%~32%。Analyses of big data sets often require aggregate queries on uncertain data with various types of data that are computationally complex. In this paper, the results of aggregate queries on uncertain data are defined to include all possible values and their corresponding probabilities. Dynamic programming is then used to solve the Distribution Sum (DSUM) algorithm using a Greedy-based Distribution Sum and a Binary Merge based Distribution Sum approximation algorithms, which both can be applied to tuple-level and attribute-level uncertainty models. The time and space complexities of the algorithms are determined theoretically as well as the error range of the results. Tests demonstrates that these two approximation algorithms with a 1% allowable error shorten the execution times by 15%--21% and 22%- 32%, respectively.

关 键 词:聚合查询 近似算法 不确定性数据 动态规划 误差估计 

分 类 号:TP301.6[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象