CPU与GPU上几种矩阵乘法的比较与分析  被引量:7

Comparison and analysis of matrix multiplications on GPU and CPU

在线阅读下载全文

作  者:刘进锋[1] 郭雷[1] 

机构地区:[1]西北工业大学自动化学院,西安710129

出  处:《计算机工程与应用》2011年第19期9-11,23,共4页Computer Engineering and Applications

基  金:宁夏高等学校科学技术研究项目

摘  要:描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。Three matrix multiplications on CPU and four CUDA-based matrix multiplications on GPU are described,the causes of high performance are analyzed and the common characteristic of efficient algorithm is that data are properly organized and rationally utilized,and therefore the access cost effectively reduced and the speed is greatly improved.The best optimized implementation on CPU gain more 200 times fast than the common one,the best optimized implementation on GPU gain about 6 times fast than the best one on CPU.

关 键 词:矩阵乘法 统一计算设备架构 图形处理器 存储模式 

分 类 号:TP301[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象