检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:郑晓东 王梅[1] 陈德华[1] 张碧莹 Zheng Xiaodong;Wang Mei;Chen Dehua;Zhang Biying(College of Computer Science and Technology, Donghua University, Shanghai 201620, China)
机构地区:[1]东华大学计算机科学与技术学院,上海201620
出 处:《计算机应用与软件》2018年第5期102-108,163,共8页Computer Applications and Software
基 金:上海市科技创新行动计划(16JC1400802)
摘 要:基于Spark分布式计算平台提出一种分布式时态索引方法。该方法提出时态数据集的分段索引构造策略,对每一分段设计基于Spark的时态索引构建方法及基于Spark RDD的并行查询策略;根据时态查询所涉及的Spark RDD分区模式的不同,将其分为分区独立查询,跨区查询以及跨段查询,并分别针对不同模式的时态查询提出优化的辅助索引结构,提高查询效率;在基准数据上进行实验,验证了所提索引策略的实用性和高效性,同时表明所提方法对数据规模的有效自扩展性以及降低了集群硬件配置需求。Based on the Spark distributed computing platform,a distributed temporal indexing method is proposed.Firstly,this paper proposes a segment-indexing strategy of temporal data set,and designs Spark-based tense index construction method and Spark RDD-based parallel query strategy for each segment. According to the Spark RDD partition pattern involved in the temporal query,it is divided into domain independent query,cross-domain query,and cross-segment query,and proposes the optimized auxiliary index efficiency. Finally,the experiments on benchmark data verifies the practicability and efficiency of the proposed indexing strategy,indicating the method is effective on the scalability of the data scale and reduces the cluster configuration requirements.
关 键 词:时态数据 时态索引 SPARK 分布式 分段存储
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.76