检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:王小乐[1,2,3] 顾乃杰[1,2,3] 张明[1,2,3]
机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学先进技术研究院,合肥230027
出 处:《小型微型计算机系统》2016年第3期622-626,共5页Journal of Chinese Computer Systems
基 金:安徽省自然科学基金项目(1408085MKL06)资助
摘 要:龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能.Loongson-3B processor is the first domestic commercial 8-core processors,mainly used for high-performance computers,high-performance servers and digital signal processing. Howto use Loongson-3B architecture to develop a highly efficient FFT library is particularly important. FFTW library is based on general CPU development package. It is difficult to take full advantage of Loongson-3B architecture,so FFTW library failed to achieve satisfactory performance on Loongson-3B. In this paper,we optimize FFTW library,by methods such using MIPS assembler,multiply-add instruction,computing vectorization,Cooley-Tukey algorithm and computing real and imaginary part ofreal-valued seriesseparately. Experimental results showthatperformance improvement on average about45%,some even more than 100 percent,making FFTW has higher performance on the Godson 3B processor.
分 类 号:TP301[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.28