检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:李晟召 王琴[1] LI Sheng-zhao;WANG Qin(Department of Micro/Nano Electronics,Shanghai Jiao Tong University,Shanghai 200240,China)
出 处:《计算机工程与设计》2023年第6期1885-1892,共8页Computer Engineering and Design
基 金:国家科技部重点研发计划基金项目(2018YFA0701500)。
摘 要:为解决视频目标检测应用上的神经网络硬件加速问题,提出一种基于视频应用中连续输入之间高度相似性的YOLO卷积网络FPGA加速器。提出增量计算与快速卷积算法结合的优化方法,使用增量计算以跳过连续输入间相似部分的卷积运算;使用快速卷积算法增加并行计算资源的利用效率。实验结果表明,加速器算力约为238 GOP/s,增量计算以及快速卷积算法为加速器分别提供1.31倍与2.11倍的加速比,相较于同类网络加速器,DSP效率上有1.90倍到5.43倍的提升。To solve the problem of neural network hardware acceleration in video object detection,based on the similarities between continuous inputs in video,a YOLO convolution neural network FPGA accelerator was proposed.An optimization method combining incremental operation and Winograd fast convolution algorithm was proposed.Incremental operation was used to skip the convolution operation of similar parts between continuous inputs.The Winograd fast convolution algorithm was used to increase the efficiency of parallel computing resources.Experimental results show that the throughput of accelerator reaches 238 GOP/s.Incremental calculation and Winograd algorithm provide the accelerator with a 1.31×and 2.11×speedup.Compared with other YOLO network accelerators,DSP efficiency of accelerator has 1.90×-5.43×speedup.
关 键 词:卷积网络加速器 视频目标检测 连续输入相似性 并行计算 增量计算 快速卷积算法 高计算资源效率
分 类 号:TP183[自动化与计算机技术—控制理论与控制工程]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.7