检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:陈春茹 CHEN Chunru
出 处:《信息技术与信息化》2024年第7期170-173,共4页Information Technology and Informatization
摘 要:随着大数据及云计算技术、移动场景应用数据量的迅猛发展,对于动态场景下的时态大数据查询与处理分析,成为不同企事业单位高吞吐量、低延迟数据管理关注的重要方向。基于Apache Spark分布式计算框架,搭建起涵盖Spark SQL解析器、Catalyst查询优化器、Data Frame查询接口、Hive数据仓库、RDD(resilient distributed datasets)数据库等组件的大数据查询分析系统,针对海量的半结构化、非结构化时态数据,基于Spark SQL内核的Parser组件拓展时态查询的范围,使其支持特定索引创建、删除与内存读入管理的关键字,将本地分区建立的时态索引打包为IndexRDD数据集,利用局部时态索引模型展开含有K个时态对象的数据查询,快速扫描、查询与定位相应的数据项位置,进而提升时态数据查询的容错性、执行性能。
关 键 词:Spark SQL组件 数据查询与索引优化 系统
分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.144.70.25