龙芯3A处理器上FFT的高效实现  被引量:6

Efficient Implementation of FFT on Loongson 3A CPU

在线阅读下载全文

作  者:郭利财[1] 刘燕君[2] 

机构地区:[1]中国科学技术大学计算机科学与技术学院,合肥230027 [2]安徽大学计算机科学与技术学院,合肥230039

出  处:《小型微型计算机系统》2012年第3期594-597,共4页Journal of Chinese Computer Systems

基  金:国家自然科学基金项目(60833004)资助;国家"八六三"高技术研究发展计划项目(2008AA010902)资助

摘  要:FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.To promote the application of Loongson processers,it is of enormous significance to optimize the performance of FFT(Fast Fourier transform),which is a basic tool in many engineering fields.In this paper,the hardware characteristics of loongson 3A processer are fully exploited based on some programming techniques,such as improving the computation and the bit reverse process and utilizing the Loongson 3A′s 128 bit memory access instructions to reduce the ratio of the memory instructions,and finally efficient FFT algorithms are implemented.The experiments show that the proposed 1d-fft and 2d-ff algorithms on 825MHz loongson 3A processor are about 2.5 and 3 times as fast as FFTW respectively.

关 键 词:龙芯3A FFT 性能优化 KD-60 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象