PLASMA自适应调优与性能优化的设计与实现  

Design and Implementation for PLASMA Auto-tuning and Performance Optimizing

在线阅读下载全文

作  者:吕渐春[1,2] 张云泉[1] 王婷[1] 肖玄基[1,2] 

机构地区:[1]中国科学院软件所并行计算实验室,北京100190 [2]中国科学院研究生院,北京100190

出  处:《计算机科学》2012年第4期282-286,共5页Computer Science

基  金:国家"863"曙光6000千万亿次高效能计算机系统研制项目(2009AA01A129);国家"863"高效能计算机及网格服务重大项目(2009AA01A134);国家重大专项核高基项目(2009ZX01036-001-002);中国科学院知识创新工程重大项目课题(KGCX1-YW-13);国家重大科研装备研制项目(ZDYZ2008-2);国家自然科学基金项目(61100073;61133005;61100066)资助

摘  要:PLASMA是一个高效的线性代数软件包,其数据分布结合分堆、细粒度并行以及乱序执行机制等大大提高了程序的性能。但PLASMA仍然存在一些问题,比如分块大小对程序性能的影响非常大,以及产生了大量的数据拷贝等。通过对比传统的LAPACK和PLASMA的实现机制,分析了PLASMA中存在的优势和不足,介绍了两种弥补PLASMA自身不足的方法。针对PLASMA的架构,经过大量的测试与分析,提出了边缘矩阵的概念并分析了其对性能的影响,据此提出了一种自适应调优的方法。并通过数据拷贝与计算并行的运行方式,进一步提高了PLASMA性能,最后通过大量的测试验证了该优化方法的效果。PLASMA is a high performance linear algebra package.Its innovative approach such as block data layout with tiling,fine grain parallelism and out of order execution mechanism greatly improves the performance of the program.However,there are still some problems,for example,the size of block plays a severe role in performance and this mechanism brings some data copy.In this paper,by comparing the traditional LAPACK and PLASMA's mechanism,we aimed to analyze the advantages and disadvantages of PLASMA,and proposed two methods to make up the disadvantages.As to the PLASMA architecture,we proposed a concept of marginal matrix and analysed their impact on perfor-mance via extensive testing and analysis,and then proposed a method of auto-tuning.Besides,we also found a way to further improve the performance of PLASMA,which is adopting data transmission and computing in parallel.Finally,we verified the effect of optimized method by doing a large number of testing.

关 键 词:LAPACK PLASMA 自适应调优 优化 

分 类 号:TP302[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象