Spark计算引擎的数据对象缓存优化研究  被引量:3

Data Object Cache in Spark Computing Engine

在线阅读下载全文

作  者:陈康[1] 王彬[1] 冯琳[1] 

机构地区:[1]清华大学计算机科学与技术系,北京100084

出  处:《中兴通讯技术》2016年第2期23-27,共5页ZTE Technology Journal

基  金:国家高技术研究发展("863")计划(2013AA01A213);国家自然科学基金(61433008;61373145;61170210;U1435216);国家核高基重大专项(2013zx01039-002-002)

摘  要:研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。In this paper, Spark parallel computing cluster for memory is studied. Its main work is about modeling and analysis of memory behavior in the computing engine and making the cache strategy automatic. Thus, the scheduler can recognize a valuable data object to be cached in the memory. A new cache replacement algorithm is proposed to replace least recently used(LRU) and have better performance in some applications. Thus, the performance and reliability of the Spark computing engine can be improved.

关 键 词:并行计算 缓存 SPARK RDD 

分 类 号:TP311.13[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象