检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:包冲 张善从[2] BAO Chong;ZHANG Shan-cong(University of Chinese Academy of Sciences,Beijing 100049,China;Technology and Engineering Center for Space Utilization,Chinese Academy of Sciences,Beijing 100094,China)
机构地区:[1]中国科学院大学,北京100049 [2]中国科学院空间应用工程与技术中心,北京100094
出 处:《微电子学与计算机》2021年第1期22-26,32,共6页Microelectronics & Computer
基 金:载人航天工程预研项目(18128060301)。
摘 要:矩阵计算是GPU最擅长的工作之一,NVIDIA公司在CUDA中提供了线性代数库cuBLAS,用于矩阵和向量相关的计算.但是GPU容易受到电磁或者宇宙射线影响,而发生"位"反转问题,从而发生静默数据损坏错误.针对这个问题,利用基于算法的容错方法,提出了带容错的,用于通用矩阵乘法计算的方法,并以CUDA库函数的方式实现.论文讨论了算法的原理,用一种高效的方法实现了容错计算,并提出了一个低开销、高准确率的阈值计算方法用于在线的快速纠错和检错.在两款嵌入式GPU平台上对带容错功能的GEMM库函数进行了评估,其纠错和检错能力与预期一致,并且在大部分情况下,额外性能开销能够控制在50%以内,证明了该GEMM函数可以在较低的性能开销情况下,能够很好的实现GEMM计算的检错和纠错,在某些结果-关键的高性能计算中,具有一定的实用价值.Matrix computing is one of the work that GPUs are good at.NVIDIA provides a linear algebra library cuBLAS,in CUDA for the calculations related with matrices and vectors.However,GPU is vulnerable to the problem of bit inversion due to electromagnetic interference or cosmic rays,resulting in silent data corruption(SDC)errors.In order to resolve this problem,a general CUDA library function with fault tolerance for General Matrix Multiplication(GEMM)is implemented by using the algorithm-based fault-tolerant method(ABFT).The principle and implementation of the algorithm,as well as the judging mechanism in the process of error correction and detection are fully discussed.The GEMM library function with fault tolerance is evaluated on two embedded GPU platforms,and its error correction and error detection capabilities are consistent with expectations,and the additional performance overhead can be controlled within 50%.It is proved that this GEMM function with fault-tolerant can well perform detection and correction of the GEMM computing with lower performance overhead.In some result-key high performance computing applications,this function has more practical application value.
关 键 词:通用矩阵乘法 基于算法的容错 静默数据损坏 浮点运算 校验和 检错与纠错
分 类 号:TN911-34[电子电信—通信与信息系统] TP312[电子电信—信息与通信工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.147