检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王武[1] 王舒扬 姜金荣[1] 孟虹松 WANG Wu;WANG Shu-yang;JIANG Jin-rong;MENG Hong-song(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049;National Supercomputing Center in Wuxi,Wuxi 214072,China)
机构地区:[1]中国科学院计算机网络信息中心,北京100190 [2]中国科学院大学,北京100049 [3]国家超级计算无锡中心,江苏无锡214072
出 处:《计算机工程与科学》2019年第7期1161-1167,共7页Computer Engineering & Science
基 金:国家重点研发计划(2017YFB0203303);中国科学院十三五信息化应用工程项目(XXH13506-405)
摘 要:快速多极子方法(FMM)是一种求解N体问题的快速高效数值算法,在宇宙学和分子动力学等模拟中具有广泛的应用。申威SW26010是一款国产众核异构处理器,含260核心(4核组)。基于申威SW26010的众核架构设计和实现了快速多极子方法,并对核心函数(尤其是最耗时的粒子对相互作用)系统地进行了性能优化,包括异步DMA、SIMD向量化、循环展开、内联汇编指令调整等。以粒子对相互作用为例,优化后代码的计算速度约为主核上运行的原始代码的400倍,每个核组上的浮点性能达到250GFLOPS,即理论峰值性能的32.5%。The fast multipole method(FMM)is a fast and efficient numerical algorithm for solving the N-body problem and has various applications in cosmology and molecular dynamics.Sunway SW26010 is a heterogeneous manycore processor developed independently by China with 260 cores(4 core groups).We design and implement an FMM on SW26010 manycore architecture.We also systematically optimize the performance of kernel functions(especially for the most time-consuming particle pair interaction),including asynchronous direct memory access(DMA),SIMD vectorization,loop unrolling and inline assembly tuning.Taking the particle pair interaction kernel as an example,the computational speed after optimization is about 400 times higher than the raw code running on the host core,and the floating-point performance on each core group is 250 GFLOPS,which is 32.5%of the theoretical peak performance.
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.15