龙芯3B处理器上FFT算法向量化研究  被引量:7

Vectorization Study for FFT Algorithm Based on Godson 3B

在线阅读下载全文

作  者:张杰[1,2,3] 顾乃杰[1,2,3] 张明[1,2,3] 

机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学先进技术研究院,合肥230027

出  处:《小型微型计算机系统》2015年第7期1639-1643,共5页Journal of Chinese Computer Systems

基  金:国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助;高等学校学科创新引智计划项目(B07033)资助

摘  要:龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.Godson-3B is the second chip of the Godson-3 Chip M ulti-Processor( CM P) series,which is targetedat high-performance scientific computing and high-end embedded applications. As the basic tool for digital signal processing,image processing and other fields,it is absolutely necessary for us to optimize FFT algorithm based on Godson-3B processor. However,current FFT algorithms provide a lowperformance because they haven't taken full advantage of the Godson-3B characteristic. In this paper,we analyzed the radix-2 FFT algorithm,and present a radix-32 vectorization FFT algorithm combined with the Godson-3B architecture. The results showthat the average computing speed of our algorithm is up to 765. 15 M flops,which is 2. 12 times as fast as the FFTW( Fast Fourier Transform in the West),the highest computing speed is1341. 12 M flops,which is 3. 51 times as fast as the FFTW.

关 键 词:龙芯3B 优化算法 FFT 向量化 

分 类 号:TP303[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象