检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李正杰[1] 徐炜民[1] 柴亚辉[1] 郑衍衡[1]
机构地区:[1]上海大学计算机工程与科学学院,上海200072
出 处:《计算机工程与设计》2011年第9期3050-3053,3169,共5页Computer Engineering and Design
基 金:上海市重点学科建设基金项目(J50103)
摘 要:针对目前快速多极子算法中PP问题在图形处理器上实现的缺点,如负载不平衡和计算规模受显存大小的限制等,提出了一种新的基于统一计算设备架构平台的实现方法。采取以Box为并行单位、在内存中开辟缓冲区与多线程流水计算等方式,使其适合于CPU和GPU组成的异构体系结构,充分利用CUDA编程模型的高并行性加速PP问题。实验结果表明,采用CUDA加速后,PP问题的计算时间明显降低,提高了整个FMM模拟效率,适合于各种多体问题的实时模拟。For the shortcomings of many current implementation of PP problem in fast multipole method in GPU,such as,load imbalance and the computational scale restricted by the size of video memory,a new method is presented based on CUDA computing platform.In order to suit to the heterogeneous architecture built up by CPU and GPU,paralleling data in Box,opening buffer memory and pipeline on multi-thread and other method are taken to take full advantage of the parallelism with CUDA programming model to accelerate the PP problem.Experiments prove that the simulation using CUDA to accelerate the process of PP problem significantly decreased the consumed time,and the whole FMM simulation significantly increased the efficiency,and is suitable for various kinds real-time simulation in N-body problem.
关 键 词:图形处理器 异构体系结构 统一计算架构 快速多极子算法 PP问题
分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.249