检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:罗红兵[1] 曹小林[1] 曹立强[1] 武林平[1] 莫则尧[1]
机构地区:[1]北京应用物理与计算数学研究所高性能计算中心,北京100088
出 处:《计算机工程与科学》2009年第11期91-93,105,共4页Computer Engineering & Science
基 金:国家863计划资助项目(2006AA01A107);国家自然科学基金资助项目(60803045)
摘 要:通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。We analyse the status of stability for parallel jobs on a supercomputer. The ways to evaluate stability include analyzing a workload from the batch system and testing a parallel application on 2000 processors. The analysis of the work- load shows: the stability of parallel jobs decreases when the execution time and processors for the jobs increase; more than 20 percent jobs will abort due to the computing node failures when they need 105 CPU hours. The result of testing shows the parallel jobs with thousands of processors is prone to abortion by the multiple facts, and their sustaining execution time is hard to reach 24 hours. Finally, we give some suggestions on system management, improving the stability of supercom- puters,and designing parallel programs.
分 类 号:TP316[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:18.117.79.92