检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:张杰[1,2,3] 顾乃杰[1,2,3] 张明[1,2,3]
机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学先进技术研究院,合肥230027
出 处:《小型微型计算机系统》2015年第7期1639-1643,共5页Journal of Chinese Computer Systems
基 金:国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助;高等学校学科创新引智计划项目(B07033)资助
摘 要:龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.Godson-3B is the second chip of the Godson-3 Chip M ulti-Processor( CM P) series,which is targetedat high-performance scientific computing and high-end embedded applications. As the basic tool for digital signal processing,image processing and other fields,it is absolutely necessary for us to optimize FFT algorithm based on Godson-3B processor. However,current FFT algorithms provide a lowperformance because they haven't taken full advantage of the Godson-3B characteristic. In this paper,we analyzed the radix-2 FFT algorithm,and present a radix-32 vectorization FFT algorithm combined with the Godson-3B architecture. The results showthat the average computing speed of our algorithm is up to 765. 15 M flops,which is 2. 12 times as fast as the FFTW( Fast Fourier Transform in the West),the highest computing speed is1341. 12 M flops,which is 3. 51 times as fast as the FFTW.
分 类 号:TP303[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.69