提高集群系统稳定性的自动化管理方法  被引量:1

Automated management method for availability improvement of cluster systems

在线阅读下载全文

作  者:魏勇[1] 邢莉[1] 武林平[1] 罗红兵[1] 

机构地区:[1]北京应用物理与计算数学研究所高性能计算中心,北京100094

出  处:《华中科技大学学报(自然科学版)》2011年第S1期144-147,共4页Journal of Huazhong University of Science and Technology(Natural Science Edition)

基  金:国家自然科学基金资助项目(60803045);国家高技术研究发展计划资助项目(2006AA01A107;2009AA01A134);中国工程物理研究院科学技术发展基金资助项目(2010B0403058)

摘  要:为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率.

关 键 词:故障自动管理 中国国家网格 集群系统 稳定性 主动容错 

分 类 号:N55[自然科学总论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象