一种降低并行程序检查点开销的方法  被引量:3

Method for Reducing Checkpoint Overhead of Parallel Program

在线阅读下载全文

作  者:周小成[1] 孙凝晖[2] 霍志刚[1] 马捷[2] 

机构地区:[1]中国科学院研究生院,北京100080 [2]中国科学院计算技术研究所,北京100080

出  处:《计算机工程》2007年第12期84-86,共3页Computer Engineering

基  金:中国科学院新一代机群关键技术研究基金资助项目(KGCX2-SW-116)

摘  要:检查点设置和卷回恢复是提高系统可靠性和实现容错计算的有效途径,其性能通常用开销率来评价,而检查点开销是影响开销率的主要因素。针对目前并行程序运行时存在较多通信阻塞时间的现状,该文在写时复制检查点缓存的基础上提出了一种进一步降低检查点开销的方法。通过控制状态保存线程的调度和选择合适的状态保存粒度,该方法能很好地利用通信阻塞时间隐藏状态保存线程运行时带来的开销,从而能进一步降低开销率。Checkpointing and rollback recovery is an effect way to improve system reliability and implement fault-tolerant computation. It is usually evaluated by overhead ratio, which is primarily effected by checkpoint overhead. As there is much communication blocking time while parallel program is running, a method based on copy-on-write checkpoint buffering is proposed to further reduce checkpoint overhead. By controlling the running of checkpointing thread and selecting a suitable granularity, the method can hide the overhead caused by checkpointing thread very well and thus reduce overhead ratio.

关 键 词:检查点设置和卷回恢复 检查点开销 通信阻塞时间 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象