大矩阵QR分解的FPGA设计与实现  被引量:7

The FPGA Implementation of Large-Scale QR Decomposition

在线阅读下载全文

作  者:周杰 陈啸洋 赵建勋[2] 窦勇 

机构地区:[1]分布与并行处理国防科技重点实验室,湖南长沙410073 [2]装甲兵工程学院,北京100072

出  处:《计算机工程与科学》2010年第10期34-37,48,共5页Computer Engineering & Science

基  金:国家自然科学基金资助项目(60633050;60833004)

摘  要:大规模QR分解在信号处理、图像处理、计算结构力学等领域有着广泛的应用。大规模矩阵QR分解主要在高性能并行机上进行运算,目前还没有基于FPGA平台的加速实现。本文在分析快速Givens Rotation QR分解算法特征的基础上,提出并实现了一种细粒度并行QR分解算法,并在Altera StratixⅡ FPGA平台上实现可扩展QR分解线性阵列处理器。相对于单处理单元,该阵列处理器可取得近似线性加速比,显示了良好的可扩展性。在100 MHz频率下的性能测试结果表明,相对于2.0GHz的Pentium双核通用微处理器,该阵列处理器可取得19倍的加速比。Largescale QR decomposition is widely used in many fields,such as signal processing,large image processing,and computational structure dynamics,and so on. Traditional methods adopt parallel computers to accelerate largescale QR decomposition,which is a computationintensive algorithm. This paper presents a finegrained parallel implementation of Givens Rotation QR decomposition on FPGA. A scalable linear array of processing elements (PEs),which is the core component of our hardware design,is proposed to implement this algorithm. To our knowledge,this is the first FPGAbased implementation of largescale QR decomposition. A total of 15 GRPEs can be integrated into an Altera StratixII EP2S130F1020C5 FPGA.The experimental results show that a speedup up to 19 can be achieved relative to the Pentium Dual CPU.

关 键 词:大规模 QR分解 阵列处理器 FPGA 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象