检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:甘新标[1,2] 孙燎原 刘杰[1] 雄成伟[1] 黄嘉昆
机构地区:[1]国防科技大学计算机学院,湖南长沙410073 [2]计算机软件新技术国家重点实验室(南京大学),江苏南京210093 [3]国防科技大学量子信息研究所兼高性能计算国家重点实验室,湖南长沙410073
出 处:《计算机工程与科学》2018年第1期10-14,共5页Computer Engineering & Science
基 金:国家重点研发计划(2017YFB0202104);国家自然科学基金(61602495;61402039;11401580;11665012);计算机软件新技术国家重点实验室(南京大学)开放课题(KFKT2016B25);国防科技大学预研计划(ZK16-03-06);国家重点实验室专项基金(Y62612A87S);中国科学院光谱成像技术重点实验室开放基金(LIST201602D)
摘 要:HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。HPL is a Linpack benchmark package widely used in high performance computing test.Matrix is divided into sub-matrix and distributed into computing elements in traditional HPL algorithm.However,it is ineffective for China Accelerator because of a specified interface on matrix multiplication built in China Accelerator.Thus,dPEM(delicate Partition and Encapsulation on Matrix)is advised to expose a friendly testing configuration environment.Furthermore,we propose OA4 MM(Orchestrating Algorithm for Matrix multiplication)based on heterogeneous system composed of CPU and China Accelerator.Experimental results validate dPEM and OA4 MM on CPU + China Accelerator.OA4 MM can promote productivity up to 10%in comparison to heterogeneous HPL.
关 键 词:HPL 国产加速器 矩阵分布细致划分与封装 异构协同矩阵乘调度
分 类 号:TP311[自动化与计算机技术—计算机软件与理论]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.222