基于FMM-PM方法的宇宙N体模拟在GPU上的实现和优化  被引量:6

The Implementation and Optimization of Cosmological N-Body Simulation by FMM-PM Method on GPUs

在线阅读下载全文

作  者:扶月月 王武[1] 王乔 Fu Yueyue;Wang Wu;Wang Qiao(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;National Astronomical Observatories,Chinese Academy of Sciences,Beijing 100012,China)

机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学,北京100049 [3]中国科学院国家天文台,北京100101

出  处:《数据与计算发展前沿》2020年第2期155-164,共10页Frontiers of Data & Computing

基  金:国家重点研发计划项目“宇宙学高性能异构模拟系统”(2017YFB0203302);中国科学院“十三五”信息化专项“科研信息化应用工程”(XXH13506-405);中国科学院战略性先导科技专项(C类)(XDC01040100)。

摘  要:【目的】本文在多GPU平台上,对基于快速多极子方法(FMM)和粒子网格方法(PM)的天文N体模拟软件PHoToNs的核心函数进行CUDA加速实现和性能优化。【方法】主要优化方法包括算法的参数优化、页锁定内存和CUDA流优化、混合精度和快速数学库优化等。【结果】优化后的短程力相互作用核心函数在Titan V的GPU平台上采用4张GPU卡的计算速度相对采用4个Intel Xeon CPU核提高了约410倍。【结论】本文的优化技术可为其它高性能GPU异构平台上的进一步算法研究和超大规模天文N体模拟提供支撑。[Objective]In this paper,the kernel functions of PhoToNs,which is an astronomical N-body simulation software based on the fast multipole method(FMM)and particle grid method(PM),are accelerated and optimized for CUDA on a multi-GPU platform.[Methods]The main optimization methods adopted in CUDA kernels include:algorithm parameter optimization,use of page-locked memory and CUDA streams,and use of mixed precision and fast math library.[Results]The kernel function of short range force interaction is deeply optimized,which achieves a speedup of about 410 times faster on four Titan V GPUs than the pure MPI code running on four Intel Xeon CPU cores.[Conclusions]Optimization methods in this paper can support further algorithm research and hyperscale N-body simulation on other high performance GPU-based heterogeneous platforms.

关 键 词:N体模拟 快速多极子方法 GPU 优化 

分 类 号:P132[天文地球—天体力学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象