一种基于GPU通用计算的容错方法  被引量:1

A Fault Tolerance Method Based on GPGPU

在线阅读下载全文

作  者:徐丹妮[1] 贺占庄[1] 

机构地区:[1]西安微电子技术研究所,陕西西安710054

出  处:《微电子学与计算机》2014年第2期18-22,共5页Microelectronics & Computer

基  金:国产化指挥平台应用技术研究(204030202)

摘  要:为确保GPU通用计算(GPGPU)程序在CPU-GPU异构平台上运行的可靠性,设计了一种以软件方法实现的容错模型.在分析GPGPU程序运行过程中瞬时故障的产生模式以及错误的传播路径后,对GPGPU程序运行所依赖的CPU端和GPU端分别进行容错设计,并针对GPGPU程序的运行特点,设计能够降低容错运算开销同时提升系统协同工作能力的优化方案,从而在提高GPGPU程序的可靠性的同时降低容错设计所带来的额外开销.通过对典型实例的测试验证了所提出的方案的可行性以及性能.This paper proposes a new fault-tolerant model realized by software method to ensure the reliability of general purpose computation on graphics hardware (GPGPU) on CPU-CPU heterogeneous platform. After analyzing the transient fault occurrence mode and error propagation of GPGPU, fault-tolerant designed both in CPU side and GPU side. An optimal scheme of the fault-tolerant which can reduce the computational overhead and enhance the ability of system interoperability is raised according to the feature of GPGPU. In addition, overhead from the design of fault-tolerance will decline when improving the reliability of GPGPU program. Finally, the feasibility and performance of the model proposed is tested and verified on typical examples.

关 键 词:GPGPU CUDA复算 容错优化 

分 类 号:TP311[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象