面向龙芯3B体系结构的FFTW库优化  被引量:1

Optimization of FFTW for Loongson-3B Architecture

在线阅读下载全文

作  者:王小乐[1,2,3] 顾乃杰[1,2,3] 张明[1,2,3] 

机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学先进技术研究院,合肥230027

出  处:《小型微型计算机系统》2016年第3期622-626,共5页Journal of Chinese Computer Systems

基  金:安徽省自然科学基金项目(1408085MKL06)资助

摘  要:龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能.Loongson-3B processor is the first domestic commercial 8-core processors,mainly used for high-performance computers,high-performance servers and digital signal processing. Howto use Loongson-3B architecture to develop a highly efficient FFT library is particularly important. FFTW library is based on general CPU development package. It is difficult to take full advantage of Loongson-3B architecture,so FFTW library failed to achieve satisfactory performance on Loongson-3B. In this paper,we optimize FFTW library,by methods such using MIPS assembler,multiply-add instruction,computing vectorization,Cooley-Tukey algorithm and computing real and imaginary part ofreal-valued seriesseparately. Experimental results showthatperformance improvement on average about45%,some even more than 100 percent,making FFTW has higher performance on the Godson 3B processor.

关 键 词:FFTW 龙芯3B MIPS 向量化 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象