LDLT分解协处理器的并行结构研究  

Research on Parallel Architecture for LDLT Decomposition Co-processor

在线阅读下载全文

作  者:郭磊[1] 唐玉华[1] 周杰[1] 董亚卓[2] 

机构地区:[1]国防科技大学并行与分布处理国家重点实验室 [2]中国人民解放军91655部队

出  处:《计算机工程》2011年第21期241-243,254,共4页Computer Engineering

基  金:国家自然科学基金资助项目(60921062;60903057)

摘  要:为提高LDLT分解协处理器的性能,基于FPGA平台,研究其并行结构。分析循环片间的数据依赖关系,提出LDLT分解细粒度并行算法,并在可扩展一维阵列处理器中加以实现,利用主机、算法加速器组成单精度浮点LDLT分解协处理器的并行结构。实验结果表明,与运行在2.50 GHz Pentium微处理器上的C代码相比,该协处理器可获得32.03倍~43.25倍的性能提升。This paper studies parallel architecture and implementation for large-scale symmetric matrix LDLT decomposition co-processor which based on Field Programmable Gate Array(FPGA) platform to enhance the performance of it.It proposes a fine-grained parallel algorithm basing the data dependency analysis.Then a scalable LDLT decomposition array processor is presented to implement this algorithm.Main engine and arithmetic accelerator constitute the parallel architecture of a single precision floating-point LDLT decomposition co-processor.Experimental results show that,a maximum factor of 43.25 and 32.03 in average speedup can be achieved compare to 2.50 GHz Pentium CPU with C program.

关 键 词:LDLT分解 现场可编程门阵列 细粒度并行 协处理器 

分 类 号:TP311.12[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象