检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘杰[1] 张亦添[1] 迟利华[1] 徐涵[1] 蒋杰[1] 胡庆丰[1]
机构地区:[1]国防科技大学计算机学院,湖南长沙410073
出 处:《计算机工程与科学》2009年第11期87-90,共4页Computer Engineering & Science
基 金:国家自然科学基金资助项目(60673150;60603061);国家863计划资助项目(2008AA01Z137)
摘 要:大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。Large-scale scientific and engineering computing needs to realize unprecedented complex numerical simulation and process huge data, and it is necessary to design a fault-tolerant environment for auto-reloading the failed parallel tasks. Based on parallel jobs and the system-provided checkpoint/restart function, we design a user-level, fault-tolerant environment for job auto-scheduling,including the auto-perception of fault-tolerant parallel program scheduing, auto-reloading, and data integrity ensuring. The experimental results demonstrate that the design of the fault-tolerant environment achieves the design requirements of parallel program scheduling which requires auto-reloading the failed applications and ensures the correctness and completeness of the checkpoint data.
关 键 词:高性能计算 容错 checkpoint/restart 并行程序
分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.63