检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:贾海鹏[1,2] 张云泉[1,3] 龙国平[1] 徐建良[2] 李焱[1,4]
机构地区:[1]中国科学院软件研究所并行软件与计算科学实验室,北京100190 [2]中国海洋大学信息科学与工程学院,青岛266100 [3]中国科学院软件研究所计算机科学国家重点实验室,北京100190 [4]中国科学院研究生院,北京100190
出 处:《计算机科学》2012年第5期271-277,共7页Computer Science
基 金:国家自然科学基金项目(60303020;40806040);国家自然科学基金重点项目(60533020);国家"863"计划基金项目(2006AA01A102;2R2010FM002);ISCAS-AMD联合fusion软件中心资助
摘 要:OpenCL是面向异构计算平台的通用编程框架,然而由于硬件体系结构的差异,如何在平台间功能移植的基础上实现性能移植仍是有待研究的问题。当前已有算法优化研究一般只针对单一硬件平台,它们很难实现在不同平台上的高效运行。在分析了不同GPU平台底层硬件架构的基础上,从Global Memory的访存效率、GPU计算资源的有效利用率及其硬件资源的限制等多个角度考察了不同优化方法在不同GPU硬件平台上对性能的影响;并在此基础上实现了基于OpenCL的拉普拉斯图像增强算法。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD和NVIDIA GPU上都取得了3.7~136.1倍、平均56.7倍的性能加速,优化后的kernel比NVIDIA NPP库中相应函数也取得了12.3%~346.7%、平均143.1%的性能提升,验证了提出的优化方法的有效性和性能可移植性。OpenCL is a general-purpose programming framework forheterogeneous computing platforms,however,due to the differences in hardware architecture,how to achieve performance portability on different platforms based on the function portability is still to be studied.Currently most of the researches on algorithm optimization are aimed at a single hardware platform,and difficult to achieve the efficient running on different platforms.This paper analysed the differences between the underlying hardware architectures of GPU,and studied the effects of different GPU platforms using different optimization methods on performance from the access efficiency of global memory,full use of the GPU compute resource,the constraints with hardware resource and other aspects.Based on this,the Laplace image enhancement algorithm based on OpenCL was implemented.Experimental results show that optimized algorithm gets 3.7~136.1times and 56.7 times on average speedup(without calculate the data transfer time) on both AMD and NVIDIA GPU,and the performance of the optimized kernel increases 12.3%~346.7% and 143.1% on average than the CUDA version in NVIDIA NPP library,which verifies the effectiveness and cross-platform ability of optimization methods.
分 类 号:TP302.7[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.149.255.189