基于向量扩展多核处理器的矩阵乘法算法优化研究  被引量:4

Optimization of matrix multiplication based on a multi-core architecture extended with vector units

在线阅读下载全文

作  者:朱海涛[1,2] 陈云霁[2] 钱诚[2] 王玲[2] 胡伟武[2] 

机构地区:[1]中国科学技术大学计算机科学与技术学院,安徽合肥230027 [2]中国科学院计算技术研究所微处理器中心,北京100190

出  处:《中国科学技术大学学报》2011年第2期173-182,共10页JUSTC

基  金:国家自然科学基金(60736012;60921002);国家重点基础研究发展(973)计划(2005CB321600);中国高技术研究发展(863)计划(2008AA110901)资助

摘  要:在GODSON-3B八核处理器平台上,对矩阵乘法算法进行了优化和评估,针对矩阵乘法中A,B,C三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化,隐藏访存时间,使矩阵乘法性能达到122Gflops,效率为95.3%.Based on the GODSON-3B &core processor, an optimized implementation and evaluation of matrix multiplication was proposed. For the memory access characteristic of each matrix in matrix multiplication, different methods were used to optimize the memory access behavior, hiding memory access time. The performance of optimized matrix multiplication achieves 122 Gflops, and an efficiency of 95.3 %.

关 键 词:多核 向量扩展 寄存器堆 矩阵乘法 

分 类 号:TP332[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象