检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
机构地区:[1]哈尔滨工业大学电气工程及自动化学院,哈尔滨150080
出 处:《计算机工程》2013年第4期287-290,295,共5页Computer Engineering
基 金:教育部新世纪优秀人才支持计划基金资助项目(NCET-10-0062);教育部高等学校博士学科点专项科研基金资助项目(20092302110013)
摘 要:将基于现场可编程门阵列(FPGA)的改进Cholesky分解应用于大规模线性方程组求解时,会出现存储资源限制和带宽瓶颈问题。为此,提出一种基于层次化存储策略和多端口分块式访问方式的解决方案。结合片内双极随机存取存储器(BRAM)与片外同步动态随机存取存储器(SDRAM),构成分层存储结构,通过片内存储复用降低存储资源需求。采用多端口分块式方式访问片外SDRAM,提高带宽并规避随机数据存取的访问延迟。测试结果表明,相对于XeonCPU,该方案能够实现17倍-215倍的效率提升。When using Cholesky decomposition to solve large-scale linear equations system based on Field Programmable Gate Array(FPGA), the storage size limits and access bandwidth becomes its bottleneck. This paper proposes a solution based on hierarchical storage strategy and multi-ports block access method. The hierarchical storage structure is constituted with internal Bipolar Random Access Memory(BRAM) and external Synchronous Dynamic Random Access Memory(SDRAM). The internal BRAMs are mostly reused to further decrease the storage limits. Accessing external storage through multi-port and block data access methods enhances the effective bandwidth utilization and avoids the random access delay. Experimental results show that, the design can realize 17 to 215 times efficiency speedup compared with Xeon CPU.
关 键 词:现场可编程门阵列 线性方程组 矩阵 改进Cholesky分解 带宽
分 类 号:TP391[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:3.148.106.159