检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:闫晓婷 王小宁[1] 董盛 赵一宁[1] 肖海力[1] YAN Xiaoting;WANG Xiaoning;DONG Sheng;ZHAO Yining;XIAO Haili(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;College of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学计算机科学与技术学院,北京100049
出 处:《计算机科学》2024年第9期1-14,共14页Computer Science
基 金:中国科学院战略性先导科技专项项目(B类)(XDB0500103)。
摘 要:随着高性能计算系统的规模不断扩大,复杂度不断提升,应用的容错能力成为E级计算面临的重要挑战之一。检查点技术是实现应用程序的容错能力的主要手段之一,通过定期保存应用的执行状态来实现故障恢复。文中针对高性能计算检查点技术的发展和应用情况展开综述。首先,整理了高性能计算领域中检查点技术的发展;其次,根据运行层次的不同,分别阐述了系统层检查点和应用层检查点的工作,包括主流的工具软件、可用的检查点技术、使用的应用场景等;然后,讨论了检查点技术在并行计算的容错与弹性、HPC的调度与迁移、FPGA的调试、深度学习中的容错与忠实重放这4个方面的应用;最后,对检查点技术在高性能计算领域的下一步研究方向进行了展望。As high-performance computers grow in size and complexity,the fault tolerance of applications becomes one of the key challenges facing exascale computing.Checkpointing technology is one of the main means used to achieve fault-tolerance of applications,enabling fault recovery by periodically saving the execution state of applications.This paper conducts a review study on the development and application of checkpointing techniques for high performance computing.First,the development of checkpointing technology in the field of high performance computing is compiled.Then,the system-level checkpointing and application-level checkpointing work are described according to the different operation levels,including the mainstream tool software,available checkpointing techniques,and the application scenarios used.The application of checkpoint technology in four aspects:fault tolerance and resilience in parallel computing,scheduling and migration of HPC,FPGA debugging,and fault tole-rance and faithful replay in deep learning,is discussed.Finally,further research directions of checkpointing technology in the field of high-performance computing are proposed.
分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222