检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]中国科学院计算机网络信息中心,北京100190
出 处:《科研信息化技术与应用》2011年第6期14-21,共8页E-science Technology & Application
基 金:中国科学院知识创新工程青年人才领域资助项目(CNIC_QN_10004);中国科学院"十一五"信息化专项资助项目(INFO-115-B01);国家863计划资助项目(2011AA01A205)
摘 要:随着超级计算机系统规模的不断扩大和系统结构的日益复杂,系统容错已经成为大规模超级计算机系统必须解决的一个关键问题。MPI并行程序的容错也日益受到关注,其中检查点设置和回卷恢复是MPI并行程序容错中一种重要的容错技术。本文对MPI标准、各种版本MPI实现的容错情况及检查点设置/回卷恢复的容错技术进行了介绍,给出了深腾7000上不同层次MPI并行程序的容错实例和性能测试结果,最后对不同层次MPI并行程序容错的开销进行了分析比较。With the supercomputer systems growing in both complexity and size, it has become critical for the supercomputer systems to be equipped with fault-tolerance support. There is a growing concern about fault-tolerant MPI parallel program.The checkpoint/rollback recovery technology is an important one of many fault-tolerance technologies developed for MPI parallel program. In this paper, fault-tolerances of the MPI standard and several versions of MPI implementation as well as the checkpoint / rollback recovery technology are introduced at first. Secondly, the performance test results of different level fault-tolerant MPI parallel program in Deepcomp 7000 are presented. Finally the fault-tolerant overheads of different level MPI parallel program are compared and analyzed.
分 类 号:TP316.86[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.30