检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:扶月月 王武[1] 王乔 Fu Yueyue;Wang Wu;Wang Qiao(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;National Astronomical Observatories,Chinese Academy of Sciences,Beijing 100012,China)
机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学,北京100049 [3]中国科学院国家天文台,北京100101
出 处:《数据与计算发展前沿》2020年第2期155-164,共10页Frontiers of Data & Computing
基 金:国家重点研发计划项目“宇宙学高性能异构模拟系统”(2017YFB0203302);中国科学院“十三五”信息化专项“科研信息化应用工程”(XXH13506-405);中国科学院战略性先导科技专项(C类)(XDC01040100)。
摘 要:【目的】本文在多GPU平台上,对基于快速多极子方法(FMM)和粒子网格方法(PM)的天文N体模拟软件PHoToNs的核心函数进行CUDA加速实现和性能优化。【方法】主要优化方法包括算法的参数优化、页锁定内存和CUDA流优化、混合精度和快速数学库优化等。【结果】优化后的短程力相互作用核心函数在Titan V的GPU平台上采用4张GPU卡的计算速度相对采用4个Intel Xeon CPU核提高了约410倍。【结论】本文的优化技术可为其它高性能GPU异构平台上的进一步算法研究和超大规模天文N体模拟提供支撑。[Objective]In this paper,the kernel functions of PhoToNs,which is an astronomical N-body simulation software based on the fast multipole method(FMM)and particle grid method(PM),are accelerated and optimized for CUDA on a multi-GPU platform.[Methods]The main optimization methods adopted in CUDA kernels include:algorithm parameter optimization,use of page-locked memory and CUDA streams,and use of mixed precision and fast math library.[Results]The kernel function of short range force interaction is deeply optimized,which achieves a speedup of about 410 times faster on four Titan V GPUs than the pure MPI code running on four Intel Xeon CPU cores.[Conclusions]Optimization methods in this paper can support further algorithm research and hyperscale N-body simulation on other high performance GPU-based heterogeneous platforms.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222