LAPACK线性方程求解函数在龙芯3A上的并行化  被引量:1

Parallelization of LAPACK Linear Equation Functions Based on Loongson 3A

在线阅读下载全文

作  者:刘斌斌[1,2,3] 顾乃杰[1,2,3] 任开新[1,2,3] 张杰[1,2,3] 

机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学中科院沈阳计算所网络与通信联合实验室,合肥230027

出  处:《小型微型计算机系统》2014年第5期1085-1089,共5页Journal of Chinese Computer Systems

基  金:国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助

摘  要:针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.According to the characteristics of Loongson 3A architecture, this paper achieves the parallelized version of all linear equa- tion functions based on the level of the original library structure through parallelization of BLAS functions and LAPACK functions, by methods such as substitution or elimination of variables, simplifing dependence, increasing copies of hot data and parallel flow meth- od. Users can use it by simply setting the number of cores and recompiling the multi-core LAPACK library. By running the LAPACK Timing Programs, experimental results are obtained and it shows that most functions have a speedup of 2 or more, the arithmetic mean of speedups of all linear equation functions reached 2.04.

关 键 词:LAPACK BLAS 龙芯3A 多核 

分 类 号:TP303[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象