中国气象局高性能计算机系统高可靠性设计  被引量:5

High Reliability and Availability Solution of CMA HPC System

在线阅读下载全文

作  者:沈瑜[1] 孙婧[1] 李娟[1] 

机构地区:[1]国家气象信息中心高性能计算室,北京100081

出  处:《信息安全与技术》2013年第6期42-45,57,共5页

摘  要:中国气象局的高性能计算机系统属于国家级的关键应用,承担着中国气象局所有业务及绝大部分科研项目的计算任务,系统的高可靠性对于整个系统和气象业务来说尤为重要。本文在简单介绍中国气象局目前主要的业务系统IBM cluster1600概况的基础上,从系统部件、网络配置、文件系统、存储等多个方面阐述了该系统设计实施过程中在高可靠性方面的考虑,并对2012年全年系统运行概况、故障及节点和系统可用性进行了统计和分析,证明该系统具有良好的高可靠特性。The HPC system of CMA assumes the responsibility of performing all computing tasks both of operations and developments of CMA, so the reliability and availability seems much important. After a brief introduction about the IBM system of CMA, this article discusses high reliability and availability solution from the aspect of system parts, network configure, file system and storage. The failures statistic and the availability situation of single node and the whole system show the fine reliability and availability of this system.

关 键 词:高性能计算机系统 GPFS文件系统 HPS高速交互网络 FastT存储 高可靠性 

分 类 号:TP302[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象