不同层次MPI并行程序容错的比较  被引量:2

The Comparison of Different Level Fault-tolerant MPI Parallel Program

在线阅读下载全文

作  者:赵毅[1] 曹宗雁[1] 朱鹏[1] 迟学斌[1] 

机构地区:[1]中国科学院计算机网络信息中心,北京100190

出  处:《科研信息化技术与应用》2011年第6期14-21,共8页E-science Technology & Application

基  金:中国科学院知识创新工程青年人才领域资助项目(CNIC_QN_10004);中国科学院"十一五"信息化专项资助项目(INFO-115-B01);国家863计划资助项目(2011AA01A205)

摘  要:随着超级计算机系统规模的不断扩大和系统结构的日益复杂,系统容错已经成为大规模超级计算机系统必须解决的一个关键问题。MPI并行程序的容错也日益受到关注,其中检查点设置和回卷恢复是MPI并行程序容错中一种重要的容错技术。本文对MPI标准、各种版本MPI实现的容错情况及检查点设置/回卷恢复的容错技术进行了介绍,给出了深腾7000上不同层次MPI并行程序的容错实例和性能测试结果,最后对不同层次MPI并行程序容错的开销进行了分析比较。With the supercomputer systems growing in both complexity and size, it has become critical for the supercomputer systems to be equipped with fault-tolerance support. There is a growing concern about fault-tolerant MPI parallel program.The checkpoint/rollback recovery technology is an important one of many fault-tolerance technologies developed for MPI parallel program. In this paper, fault-tolerances of the MPI standard and several versions of MPI implementation as well as the checkpoint / rollback recovery technology are introduced at first. Secondly, the performance test results of different level fault-tolerant MPI parallel program in Deepcomp 7000 are presented. Finally the fault-tolerant overheads of different level MPI parallel program are compared and analyzed.

关 键 词:MPI 容错 检查点设置 回卷恢复 

分 类 号:TP316.86[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象