MPI程序容错系统的分析和设计  被引量:2

Analysis and Design of the Fault Tolerant System for MPI Programs

在线阅读下载全文

作  者:张庆成[1] 金海[1] 张浩[1] 

机构地区:[1]华中科技大学计算机科学与技术学院,湖北武汉430074

出  处:《计算机工程与科学》2005年第6期89-92,共4页Computer Engineering & Science

基  金:国家863计划资助项目(2002AA1Z2102)

摘  要:MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI 编程提供容错机制。本文分析了实现MPI 程序容错的关键技术,并针对运行MPICH P4 的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4 通信库,提出了一套MPI程序容错系统的具体实施方案。MPI is the most universal programming modes for large scale clusters and global computing platforms. On these platforms, node failures or disconnections are frequent events, so it is necessary to provide fault tolerance for MPI programming. This paper analyzes the key techniques of implementing the fault tolerant environment for MPI, and presents an automatic volatility tolerant MPI system based on uncoordinated checkpoints and sender based optimistic rollback message logging for Linux clusters which use MPICH P4 as their programming environment.

关 键 词:MPI 容错 检查点 P4通信库 消息日志 

分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象