大规模分布并行计算系统容错与恢复技术  被引量:1

Fault tolerance recovery techniques in large distributed parallel computing system

在线阅读下载全文

作  者:张新洲[1] 周敏奇[1] 

机构地区:[1]华东师范大学软件学院,上海20062

出  处:《华东师范大学学报(自然科学版)》2014年第5期207-215,共9页Journal of East China Normal University(Natural Science)

基  金:国家自然科学基金(61332006)

摘  要:当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.Supercomputing systems today often come in the form of large numbers of commoditysystems linked together into a computing cluster. These systems, like any distributed system,can have large numbers of independent hardware components cooperating or collaborating on acomputation. Unfortunately,any of this vast number of components can fail at any time, resul-ting in potentially erroneous output. In order to improve the robustness of supercomputing appli-cations in the presence of failures, many techniques have been developed to provide resilience tothese kinds of system faults. This survey provides an overview of these various fault-tolerancetechniques.

关 键 词:容错 并行计算 集群 

分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象