并行作业容错自动调度环境设计  

Design of a Fault-Tolerant Environment for the Automatic Scheduling of Parallel Tasks

在线阅读下载全文

作  者:刘杰[1] 张亦添[1] 迟利华[1] 徐涵[1] 蒋杰[1] 胡庆丰[1] 

机构地区:[1]国防科技大学计算机学院,湖南长沙410073

出  处:《计算机工程与科学》2009年第11期87-90,共4页Computer Engineering & Science

基  金:国家自然科学基金资助项目(60673150;60603061);国家863计划资助项目(2008AA01Z137)

摘  要:大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。Large-scale scientific and engineering computing needs to realize unprecedented complex numerical simulation and process huge data, and it is necessary to design a fault-tolerant environment for auto-reloading the failed parallel tasks. Based on parallel jobs and the system-provided checkpoint/restart function, we design a user-level, fault-tolerant environment for job auto-scheduling,including the auto-perception of fault-tolerant parallel program scheduing, auto-reloading, and data integrity ensuring. The experimental results demonstrate that the design of the fault-tolerant environment achieves the design requirements of parallel program scheduling which requires auto-reloading the failed applications and ensures the correctness and completeness of the checkpoint data.

关 键 词:高性能计算 容错 checkpoint/restart 并行程序 

分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象