检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:刘斌斌[1,2,3] 顾乃杰[1,2,3] 任开新[1,2,3] 张杰[1,2,3]
机构地区:[1]中国科学技术大学计算机科学技术学院,合肥230027 [2]安徽省计算与通信软件重点实验室,合肥230027 [3]中国科学技术大学中科院沈阳计算所网络与通信联合实验室,合肥230027
出 处:《小型微型计算机系统》2014年第5期1085-1089,共5页Journal of Chinese Computer Systems
基 金:国家"核高基"重大专项项目(2009ZX01028-002-003-005)资助
摘 要:针对龙芯3A体系结构,该文通过变量代换或消除、简化依赖关系、增加热点数据副本、并行流水等方法对BLAS函数和LAPACK函数做并行化,基于原LAPACK库的结构层次实现了线性方程求解函数的并行化版本,用户只需设定核数重新编译出LAPACK的多核库便可使用.通过LAPACK自带的性能测试程序进行测试,实验结果表明,在四核模式下,大多数函数加速比达到2以上,部分函数加速比超过了3,所有线性方程求解类函数加速比的算术平均值达到2.04.According to the characteristics of Loongson 3A architecture, this paper achieves the parallelized version of all linear equa- tion functions based on the level of the original library structure through parallelization of BLAS functions and LAPACK functions, by methods such as substitution or elimination of variables, simplifing dependence, increasing copies of hot data and parallel flow meth- od. Users can use it by simply setting the number of cores and recompiling the multi-core LAPACK library. By running the LAPACK Timing Programs, experimental results are obtained and it shows that most functions have a speedup of 2 or more, the arithmetic mean of speedups of all linear equation functions reached 2.04.
分 类 号:TP303[自动化与计算机技术—计算机系统结构]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:52.14.216.203