国家自然科学基金(60803045)

作品数:8被引量:10H指数:2
导出分析报告
相关作者:罗红兵武林平张晓霞王伟魏勇更多>>
相关机构:北京应用物理与计算数学研究所北京城市学院国防科学技术大学更多>>
相关期刊:《计算机工程与科学》《华中科技大学学报(自然科学版)》《计算机科学》更多>>
相关主题:稳定性中国国家网格集群系统资源管理故障管理更多>>
相关领域:自动化与计算机技术自然科学总论更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-8
视图:
排序:
基于GMA的轻量级高性能计算环境监控
《计算机科学》2012年第3期283-285,311,共4页王伟 魏勇 张晓霞 罗红兵 
国家自然科学基金(60803045);中国工程物理研究院科学技术发展基金资助项目(2010B0403058)资助
针对高性能计算环境监控的一般要求,分析对比现有的监控体系结构,设计了基于GMA体系结构的监控系统,详细介绍了设计中的几个关键问题,并给出了解决办法,最后实现了一个轻量级且高效的高性能计算环境作业监测系统。
关键词:高性能计算环境 GMA 监控系统 
高分辨率数值计算研究
《计算机工程与科学》2011年第6期102-107,共6页张晓霞 郝一正 邵京云 袁国兴 
国家863计划资助项目(2006AA01A107);国家自然科学基金资助项目(60803045)
高分辨率计算是高置信度计算中一个极其重要而复杂的研究问题。相对传统的数值计算,高分辨率计算对计算机系统和应用程序(物理建模、参数、计算方法和算法等)提出了很高的要求。并行计算机的发展为大规模科学计算,特别是数值计算分辨率...
关键词:数值计算 高分辨率 高置信度 
基于预算的资源管理模型
《华中科技大学学报(自然科学版)》2011年第S1期125-129,共5页罗红兵 王伟 张晓霞 武林平 
国家高技术研究发展计划资助项目(2006AA01A107;2009AA01A134);国家自然科学基金资助项目(60803045);中国工程物理研究院发展基金资助项目(2010B0403058)
针对现有批作业系统中的资源管理方式在资源使用公平性和合理性、作业服务质量(QoS)与实际需求存在较大差距的问题,提出一种基于经济学原理的资源管理模型——BB-RAM模型.模型通过预算机制来实现对计算资源管理和使用的宏观控制,最终达...
关键词:高性能计算机 资源管理 并行作业调度 经济模型 预算机制 
提高集群系统稳定性的自动化管理方法被引量:1
《华中科技大学学报(自然科学版)》2011年第S1期144-147,共4页魏勇 邢莉 武林平 罗红兵 
国家自然科学基金资助项目(60803045);国家高技术研究发展计划资助项目(2006AA01A107;2009AA01A134);中国工程物理研究院科学技术发展基金资助项目(2010B0403058)
为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果.分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;...
关键词:故障自动管理 中国国家网格 集群系统 稳定性 主动容错 
集群系统运行状态监控软件设计被引量:2
《华中科技大学学报(自然科学版)》2011年第S1期148-152,共5页武林平 张晓霞 王伟 罗红兵 
国家自然科学基金资助项目(60803045);国家高技术研究发展计划资助项目(2006AA01A107;2009AA01A134);中国工程物理研究院科学技术发展基金资助项目(2010B0403058)
结合现有监控方法,设计并实现了一种针对集群系统关键部件的多层次、集中式监控软件.该软件的监控状态参数丰富,涵盖了部件的物理状态、节点的负载状态、节点的事件信息状态和数字电路逻辑状态这4大类运行状态;其状态数据使用数据库集...
关键词:集群系统 稳定性 资源管理 状态监控 故障在线自动处理 
大规模计算系统的主动故障管理方法被引量:5
《华中科技大学学报(自然科学版)》2010年第S1期20-24,共5页武林平 罗红兵 艾志玮 沈岳 
国家自然科学基金资助项目(60803045);国家高技术研究发展计划资助项目(2006AA01A107)
为了提供稳定的计算资源以提高网格用户作业的完成率,针对高性能计算系统的稳定性问题,提出了故障的主动管理方法,该方法的实施可分为三步:首先,根据系统运行历史数据,提炼出系统主要故障模式集合;然后从软件、硬件角度实现系统状态的...
关键词:大规模计算系统 中国国家网格 故障隔离 主动故障管理 
超级计算机作业运行稳定性分析
《计算机工程与科学》2009年第11期91-93,105,共4页罗红兵 曹小林 曹立强 武林平 莫则尧 
国家863计划资助项目(2006AA01A107);国家自然科学基金资助项目(60803045)
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系...
关键词:超级计算机 并行作业 稳定性 
大规模计算系统故障特征及容错机制分析被引量:3
《计算机工程与科学》2009年第A01期237-240,共4页武林平 罗红兵 刘勇鹏 
国家自然科学基金资助项目(60803045)
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系...
关键词:大规模计算系统 故障 容错 断点续算 
检索报告 对象比较 聚类工具 使用帮助 返回顶部