海洋环流模式LICOM的GPU实现与优化  被引量:3

The Implementation and Optimization of LICOM on GPUs

在线阅读下载全文

作  者:张留莹 王鹏飞[3] 张峰 刘海龙[3] 林鹏飞[3] 王涛 韦俊林 田少博 姜金荣[1] 迟学斌[1] Zhang Liuying;Wang Pengfei;Zhang Feng;Liu Hailong;Lin Pengfei;Wang Tao;Wei Junlin;Tian Shaobo;Jiang Jinrong;Chi Xuebin(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China;Institute of Atmospheric Physics,Chinese Academy of Sciences,Beijing 100029,China)

机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学,北京100049 [3]中国科学院大气物理研究所,北京100029

出  处:《数据与计算发展前沿》2020年第4期92-104,共13页Frontiers of Data & Computing

基  金:国家重点研发计划“地球系统模式的改进、应用开发和高性能计算”(2016YFB0200800);国家自然科学重点基金“涡分辨全球气候海洋模式及海洋气候效应研究”(41931183);中国科学院科研信息化应用工程“高分辨率地球系统模式集成与优化”(XXH13506-402);中国科学院战略性先导科技专项(C)“国产安全可控先进计算系统研制”(XDC01040100)。

摘  要:【目的】为了加速海洋环流模式LICOM的积分计算,降低因分辨率的提升而带来的运行成本,本文设计并实现了基于CUDA C的GPU加速版本。【方法】本文基于目前最新的LICOM3版本,在分析LICOM海洋网格块的并行算法的基础上,结合使用CUDA线程并行计算海洋网格点,将LICOM主要计算程序移植到GPU平台上,并从数据传输和设备内存的使用两个方面进行优化。【结果】实验表明,GPU版本模拟结果的与原CPU版本基本一致。与使用相同数量的Intel Xeon E5-2680 V2 CPU相比,使用2至16块NVIDIA K20 GPU单个模式天加速了9.31到1.27倍。【局限】由于LICOM3计算的边界同步通信比较多,限制了程序的可扩展性,未来需要通过边界通信优化和算法优化来提高模式的可扩展性。【结论】本文对LICOM3程序进行了GPU版本的实现和优化,取得了一定的加速效果并保持较好的扩展性,为今后面向更大规模计算的海洋环流模式发展提供了经验和参考。[Objective]In order to accelerate the calculation of the LICOM oceanic circulation model and reduce the cost caused by the high resolution,this paper designs and implements a GPU accelerated version using CUDA C.[Methods]Based on the latest version of LICOM3,this paper analyzes the parallel algorithms of ocean grid block,and uses CUDA threads to calculate the grid points in parallel,which enables porting of the main program of LICOM to the GPU platform,and data transmission and device memory usage are optimized.[Results]Experiments show that the simulation results of GPU version program are basically same as the original CPU version program,while achieving 9.31x to 1.27x speedup on 2 to 16 NVIDIA K20 GPUs compared with the same number of Intel Xeon E5-2680 V2 CPUs.[Limitations]Because there are many boundary synchronous communications in LICOM3,which limits the scalability of the program,and it is necessary to improve the scalability of the model through boundary communications optimization and algorithm optimization.[Conclusions]This paper implements and optimizes the GPU version of the LICOM3 program,achieves some speedup and keep a good scalability,which provides experience and reference for the development of larger-scale oceanic circulation model in the future.

关 键 词:GPU CUDA 并行计算 高性能计算 LICOM 海洋环流模式 

分 类 号:P731.27[天文地球—海洋科学]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象