检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]北京应用物理与计算数学研究所,北京100094
出 处:《计算机工程与科学》2009年第11期77-79,83,共4页Computer Engineering & Science
基 金:国家自然科学基金资助项目(60873005;60603052)
摘 要:分子动力学数值模拟程序在现代高性能计算机上的计算效率往往很低,只能发挥系统峰值性能的几个百分点。本文对并行分子动力学程序PMD3D在联想深腾6800超级计算机上进行性能优化。通过性能分析,我们发现粒子相互作用力计算中相互关联的浮点运算严重影响了处理器的指令级并行效率,为此我们应用计算缓存的方法,将大量不规则的浮点计算进行缓存,达到一定规模后再进行向量化计算。这样使得单机性能在优化后提升4倍多,达到处理器峰值性能5.2GFlops的32.3%。最后,在深腾6800的64个节点的256个CPU上进行了并行性能测试,达到峰值运算性能1.3万亿次的27%。The codes of molecular dynamics always run in a low performance manner, and achieve only several percents of the peak performance on modern supercomputers. In this paper, we optimize the program PMD3D on the Shenteng 6800 supercomputer. By performance analysis, we obtain that the dependence of the long-latency operations heavily influences the parallel efficiency of instructions. Based on the analysis, we optimize the codes, cache the amount irregular computations, and compute them vectorially. We achieve 32. 3% of the peak performance and 4×speedups on the Itanium 2 processor. Fi- nally, we test the program on the Shenteng 6800 with 256 CPUs in 64 nodes, and achieve 27% of the peak performance 1. 3TFlops.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.49