SPARK

作品数:1925被引量:5216H指数:24
导出分析报告
相关领域:自动化与计算机技术交通运输工程机械工程更多>>
相关作者:朱永利梁毅于炯胡峰熊安萍更多>>
相关机构:北京邮电大学中国科学院大学重庆邮电大学华中科技大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划河北省自然科学基金更多>>
-

检索结果分析

结果分析中...
选择条件:
  • 期刊=计算机工程与应用x
条 记 录,以下是1-10
视图:
排序:
Spark任务间消息传递方法研究被引量:2
《计算机工程与应用》2022年第21期91-97,共7页夏立斌 刘晓宇 孙玮 姜晓巍 孙功星 
国家自然科学基金(12275295,11775249)。
当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数...
关键词:SPARK MPI 科学计算 内存计算 迭代算法 
异构集群节点与作业特性感知资源分配算法
《计算机工程与应用》2022年第18期327-334,共8页胡亚红 吴寅超 朱正东 李小轩 
国家重点研发计划(2018YFB0204004,2018YFB0204003)。
为了避免多应用间的资源争用,Spark采用了FIFO、FAIR等作业调度策略,辅以SpreadOut和非SpreadOut两种资源调度算法,但是这些算法没有充分考虑用户作业类型和集群节点性能的相互关系。用户作业类型及节点性能偏向感知的资源调度算法ATNP...
关键词:资源调度 任务调度 作业类型 节点性能偏向 SPARK 
Spark下基于PCA和分层选择的随机森林算法被引量:1
《计算机工程与应用》2022年第6期118-127,共10页雷晨 毛伊敏 
国家重点研发计划(2018YFC1504705);国家自然科学基金(41562019);江西省教育厅科技项目(GJJ151528,GJJ151531)。
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algor...
关键词:随机森林 SPARK 主成分分析(PCA) 分层抽样 误差约束 数据划分 数据复用 
Spark平台下类别数据互信息计算的并行化被引量:3
《计算机工程与应用》2021年第7期95-100,共6页李俊丽 
国家自然科学基金(61876122);国家自然科学基金青年科学基金项目(61602335);晋中学院1331工程创新团队项目。
针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量...
关键词:列变换 并行互信息计算 分类数据 Spark平台 
面向Spark的批处理应用执行时间预测模型被引量:1
《计算机工程与应用》2021年第5期79-87,共9页李硕 梁毅 
国家重点研发计划(2017YFC0803300);国家自然科学基金面上项目(91546111)。
Spark批处理应用执行时间预测是指导Spark系统资源分配、应用均衡的关键技术。然而,既有研究对于具有不同运行特征的应用采用统一的预测模型,且预测模型考虑因素较少,降低了预测的准确度。针对上述问题,提出了一种考虑了应用特征差异的S...
关键词:SPARK 批处理应用 分类 预测 
Spark迭代密集型应用的优化方法研究被引量:3
《计算机工程与应用》2020年第23期68-73,共6页魏占辰 刘晓宇 黄秋兰 孙功星 
国家自然科学基金(No.11775249,No.11875283)。
Spark是一个非常流行且广泛适用的大数据处理框架,具有良好的易用性和可扩展性。但在实际应用中,仍然存在一些问题需要解决。例如在部分迭代计算场景中,得到的加速效果并不理想,究其原因在于使用Spark等分布式系统后引入的额外损耗较大...
关键词:SPARK 迭代密集型应用优化 分布式计算代价 有效计算比 
基于Spark的快速短文本数据流分类方法被引量:1
《计算机工程与应用》2020年第14期138-147,共10页胡阳 胡学钢 李培培 
国家自然科学基金(No.61673152);安徽省自然科学基金(No.1708085QF142)。
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提...
关键词:短文本数据流分类 分布式处理 Spark环境 概念漂移 
Spark环境下基于子图的异步迭代更新方法被引量:1
《计算机工程与应用》2020年第7期67-73,共7页李超 董新华 陈建峡 
国家自然科学基金(No.61502155);湖北省科技厅自然科学基金(No.2017CFB326)。
全局同步计算模型简单易用,但是路障同步导致收敛速度变慢。以顶点为中心的异步迭代虽然提高了收敛速度,但在计算节点之间需要频繁发送信息。在Spark环境下提出一种基于子图的异步迭代更新方法。在子图之间建立异步消息通信连接后,子图...
关键词:子图 异步更新 Spark环境 图数据 图切分 
Slope One算法的改进及其在大数据平台的实现被引量:5
《计算机工程与应用》2020年第1期83-91,共9页刘佳耀 王佳斌 
国家自然科学青年科学基金(No.61505059);华侨大学研究生科研创新能力培养计划(No.1611422006);厦门市科技局产学研协同创新项目(No.3502Z20173046)
针对原始Slope One算法计算推荐预测值时忽略了项目之间的相似性,以及大数据时代下推荐效率低下的问题,提出基于Spark平台的聚类加权Slope One推荐算法。通过Canopy-K-medoids聚类算法生成最近邻居集合;在最近邻集中用Slope One算法上...
关键词:Slope One算法 聚类 Spark平台 推荐算法 
面向银行业务的交易量预测与告警研究被引量:2
《计算机工程与应用》2019年第12期220-224,244,共6页谭荻 段桂华 王建新 任立男 
国家自然科学基金(No.61572530,No.61602171)
银行一般都有多种交易系统并存,当这些分散的交易系统出现故障时,运维人员难以从海量的日志中定位故障。针对以上问题,使用SparkStreaming、Spark ML、Hadoop、ELK等技术,基于决策树回归模型,设计并实现了一个面向银行业务的交易量预测...
关键词:交易系统 银行 预测 告警 SPARK 
检索报告 对象比较 聚类工具 使用帮助 返回顶部