GPU平台二维快速傅里叶变换算法实现及应用  被引量:6

Realization and Application of Two-dimensional Fast Fourier Transform Algorithm Based on GPU

在线阅读下载全文

作  者:张全[1,2,3,4] 鲍华[1,3] 饶长辉[1,3] 彭真明[2] 

机构地区:[1]中国科学院自适应光学重点实验室,成都610209 [2]电子科技大学光电信息学院,成都610054 [3]中国科学院光电技术研究所,成都610209 [4]中国科学院大学,北京100049

出  处:《光电工程》2016年第2期69-75,共7页Opto-Electronic Engineering

基  金:国家自然科学基金(11178004);中国科学院实验室创新基金(YJ14K018)

摘  要:NVIDIA在其GPU平台上开发的FFT库CUFFT经过几次升级,但在二维FFT实现上效率还有提升空间,而且对于特定不能与上下文的计算融合,导致多次对Global memory的访问。本文分析合并内存访问事务大小与占用率之间的关系,优化使用GPU存储器资源,对小数据量2次幂二维复数FFT在GPU上的实现进行改进,加速比最高达到CUFFT 6.5的1.27倍。利用实数FFT结果的共轭对称性,算法的效率比复数FFT算法运算量降低了40%。最后将FFT的改进应用到光学传递函数(OTF)的计算中,采用Kernel融合的方法,使得OTF的计算效率比CUFFT计算方法提高了1.5倍。NVIDIA as the inventor of the GPU provides a library function CUFFT for computing Fast Fourier Transform (FFT). After several generations update of CUFFT, there is still promotion space and it is not suit for kernel fusing on GPU to reduce the memory access and increase the Instruction Level Parallelism (ILP). We develop our own custom GPU FFT implementation based on the well-known Cooley-Tukey algorithm. We analyze the relationship of coalesce memory access and occupancy of GPU and get the optimal configuration of thread block. The results show that the proposed method improved the computational efficiency by 1.27 times than CUFFT 6.5 for double complex data 512~512. And then it is used to the computation of OTF with kernel fusing strategy, and it improved the efficiency of computation about 1.5 times than conventional method using CUFFT.

关 键 词:快速傅里叶变换 CUDA 光学传递函数 图形处理器 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象