-

检索结果分析

结果分析中...
检索条件:"关键词=SparkSQL "
条 记 录,以下是1-5
视图:
排序:
显示条数:
Hadoop环境下基于SparkSQL海量自动站数据查询统计初探被引量:12
《气象科技》2019年第5期768-772,871,共6页黄志 詹利群 任晓炜 李涛 
国家档案局项目(2016-X-06)“基于Hadoop大数据处理的广西气象数字档案馆建设”资助
在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,并运用SparkSQL并行计算框架进行统计处理生成常用气象要素日统计值。结果表明,数据处理和获取时效较关系...
关键词:HADOOP HDFS SparkSQL ETL 
基于开源SparkSQL平台处理传统网管性能数据研究被引量:1
《山东通信技术》2018年第2期5-8,12,共5页李训潮 宫钦 
本文针对传统网管OMC北向性能数据,通过基于内存计算的SparkSQL技术进行处理,有效提升了基于Hadoop的大数据平台的计算能力,整合了分散异构的各传统网管数据,满足了不同租户的快速查询和交互式应用需求。
关键词:OMC 北向性能数据 网管 SparkSQL 内存计算 
基于文本信息的SparkSQL处理研究被引量:2
《电子技术与软件工程》2020年第15期213-214,共2页史媛 
本文以图书信息为例,介绍了Spark中对结构化数据进行处理的组件SparkSQL,使用SparkSQL转换文本信息文件为DataFrame数据集,然后运用Scala语言对数据集进行操作运算,得出最终结果并将结果输出,最后分析结果得出可以采取的策略。初步阐述...
关键词:文本 SparkSQL Scala 
SparkSql上自适应数据集的高效频繁集挖掘算法被引量:6
《计算机工程与应用》2020年第21期72-78,共7页王永贵 郭昕彤 
国家自然科学基金(No.61404069);国家自然科学基金青年基金(No.41701479)。
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产...
关键词:频繁集 大数据 候选集 自适应数据 布隆过滤器 SparkSql 
基于Spark的分布式网络日志处理系统的设计与实现被引量:1
《科学技术创新》2021年第15期82-83,共2页芦成刚 王桂荣 
延边大学中青年科技计划项目(项目编号:延大科合字(2018)第11号)基于Spark的分布式网络日志处理系统的设计与实现;延边大学应用基础研究项目(项目编号:延大科合字(2021)第2号)基于VB.NET的房产中介管理系统的设计与实现。
通过用户浏览网页时的网络日志分析,可发现用户的一些浏览习惯,从而有针对性的对网站进行改进,给用户带来更好的体验。本文通过搭建多个虚拟机对Web日志进行离线分析,通过flume系统收集日志,利用Hadoop文件系统存储,SparkSQL进行离线分...
关键词:WEB日志 flume系统 Hadoop文件系统 SparkSQl 
检索报告 对象比较 聚类工具 使用帮助 返回顶部