检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:赵文龙 王武[1] ZHAO Wenlong;WANG Wu(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100083,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]中国科学院计算机网络信息中心,北京100083 [2]中国科学院大学,北京100049
出 处:《数据与计算发展前沿》2022年第5期108-119,共12页Frontiers of Data & Computing
基 金:光合基金A类No.ghfund202107013051。
摘 要:【目的】本文在国产加速卡异构平台上,对基于BH-树方法和粒子网格方法的并行天文N体模拟软件Gadget-2进行了移植优化。【方法】基于HIP将Gadget-2中最耗时的短程力计算部分移植到加速卡上,包括本地树的遍历,并对结构体数组进行重构,同时充分利用寄存器与共享内存,提高设备端的访存效率。【结果】数值结果表明,移植优化的版本整体性能加速13.27倍,短程力计算加速35.67倍,并行效率达到57.29%,功率谱结果验证了移植优化的正确性。【结论】本文实现了天文N体模拟软件Gadget-2在加速卡异构平台上的移植和优化,并为大规模宇宙学模拟提供支撑。[Objective]In this paper,we present the work on porting the parallel cosmological N-body simulation software Gadget-2 to a homegrown heterogeneous accelerator platform,based on the BH-Tree and the Particle-Mesh methods.[Methods]The most time-consuming part,computation of short-range force,is ported to the accelerator with HIP,including the traversal of the local tree.The Structure of Arrays is reconstructed,the register and shared memory are fully utilized to improve the efficiency of memory access on the device.[Results]Numerical results show that the performance of the optimized software and the part of short-range force computation are accelerated up to 13.27 times and 35.67 times,respectively.The parallel efficiency reaches 57.29%.The optimized version is validated by the power spectrum.[Conclusions]The cosmological N-body simulations software Gadget-2 is ported and optimized on a heterogeneous accelerator platform,which can support large-scale cosmological simulation.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249