检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
出 处:《华东师范大学学报(自然科学版)》2014年第5期207-215,共9页Journal of East China Normal University(Natural Science)
基 金:国家自然科学基金(61332006)
摘 要:当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.Supercomputing systems today often come in the form of large numbers of commoditysystems linked together into a computing cluster. These systems, like any distributed system,can have large numbers of independent hardware components cooperating or collaborating on acomputation. Unfortunately,any of this vast number of components can fail at any time, resul-ting in potentially erroneous output. In order to improve the robustness of supercomputing appli-cations in the presence of failures, many techniques have been developed to provide resilience tothese kinds of system faults. This survey provides an overview of these various fault-tolerancetechniques.
分 类 号:TP302.8[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.147.28.158