一个基于通信系统支持的并行检查点系统  被引量:1

A Parallel Checkpointing System Based on Communication System Support

在线阅读下载全文

作  者:霍志刚[1] 马捷[2] 孙凝晖[2] 

机构地区:[1]中国科学院研究生院,北京100080 [2]中国科学院计算技术研究所,北京100080

出  处:《计算机工程》2007年第5期217-219,共3页Computer Engineering

基  金:中科院新一代机群关键技术的研究项目(KGCX2-SW-116)

摘  要:在大规模机群环境下,检查点和恢复机制是一种必不可少的容错技术。该文提出一种基于机群通信系统的可靠性机制,在不作全局同步的情况下获取通信系统全局状态的方法,并利用该方法实现了一个对应用程序透明的并行检查点系统。该系统通过底层通信系统的支持降低了并行检查点的实现复杂度和执行开销,适用于大规模机群应用。Checkpointing and recovery systems are growing in importance in large-scale clusters. A non-blocking coordinated checkpointing and recovery system is proposed in which reliable communication mechanisms are used to eliminate the overhead of global synchronization. It is shown that a parallel checkpointing system can benefit from supports embedded in low-level communication systems in its implementation and to improve its performance.

关 键 词:机群通信系统 并行检查点 容错技术 

分 类 号:TN915.02[电子电信—通信与信息系统]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象