基于申威众核架构的分组卷积计算加速与优化  被引量:1

Acceleration and optimization of group convolution calculation based on SW many-core architecture

在线阅读下载全文

作  者:王鑫[1] 张铭 Wang Xin;Zhang Ming(School of Internet of Things Engineering,Jiangnan University,Wuxi Jiangsu 214122,China)

机构地区:[1]江南大学物联网工程学院,江苏无锡214122

出  处:《计算机应用研究》2023年第6期1745-1749,共5页Application Research of Computers

基  金:高等学校学科创新引智计划项目(B12018)。

摘  要:针对应用普通卷积结构的卷积计算复杂度较高、计算量与参数量较大的问题,提出以国产SW26010P众核处理器为平台的并行分组卷积算法。核心思想是利用独特的数据布局,通过多核映射处理进行并行计算。实验测试结果表明,与单核串行算法相比,使用该并行分组卷积算法可以获得79.5的最高加速比及186.7MFLOPS的最大有效算力。通过SIMD指令对并行分组卷积算法进行数据并行优化后,与使用优化前的并行分组卷积算法相比,可以获得10.2的最高加速比。In order to solve the problems of high computational complexity,large computational cost and large number of parameters,this paper proposed the parallel group convolution algorithm based on the domestic SW26010P multi-core processor.The core idea was to use the unique data layout,through the multi-core mapping processing,parallel computing.Experimental results show that compared with single-core serial algorithm,the proposed parallel group convolution algorithm can achieve the highest speed-up ratio of 79.5 and the maximum effective computing power of 186.7MFLOPS.After data parallel optimization of the parallel group convolution algorithm by SIMD instruction,the algorithm obtains the highest speed-up ratio of 10.2 compared with the parallel group convolution algorithm before optimization.

关 键 词:卷积神经网络 分组卷积 并行算法 数据并行 

分 类 号:TP391[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象