大规模计算系统故障特征及容错机制分析  被引量:3

Survey on the Dependability and the Fault Tolerance Mechanism for Large Scale Computing Systems

在线阅读下载全文

作  者:武林平[1] 罗红兵[1] 刘勇鹏[2] 

机构地区:[1]北京应用物理与计算数学研究所,北京100094 [2]国防科技大学计算机学院,湖南长沙410073

出  处:《计算机工程与科学》2009年第A01期237-240,共4页Computer Engineering & Science

基  金:国家自然科学基金资助项目(60803045)

摘  要:本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。The running stability of several large scale computing systems is discussed. First, we summaries the main fault models and features according to the public fault data. Second, based on the survey of system fault tolerance research, the challenge and likely mechanisms for fault tolerance of more large scale computing systems is introduced.

关 键 词:大规模计算系统 故障 容错 断点续算 

分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象