基于注意力机制与编解码结构的人群计数网络  

Crowd counting network based on attention mechanism and encoder-decoder structure

在线阅读下载全文

作  者:黄友文[1] 肖贵光 豆恒 HUANG Youwen;XIAO Guiguang;DOU Heng(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China)

机构地区:[1]江西理工大学信息工程学院,江西赣州341000

出  处:《传感器与微系统》2023年第5期78-82,86,共6页Transducer and Microsystem Technologies

基  金:江西省教育厅科技资助项目(GJJ180443)。

摘  要:针对人群计数任务中背景干扰和尺度变化影响计数精度的问题,提出一种基于注意力机制与编解码结构的人群计数网络CAENet。网络以编解码结构为骨干,基于特征金字塔设计多尺度融合(MF)模块,使编码器中具有不同尺度语义信息的特征进行融合。引入通道注意力机制,使用一条单独的解码通道设计注意力模块(AM),将模块生成的注意力图反馈到解码器的各个阶段用于抑制背景干扰。网络通过逐级监督的方式完成训练,并将最后一层输出的密度图作为最终的预测结果。在多个公开数据集的测试结果表明:该网络在固定场景中的人群计数任务中具有较高的准确性,且鲁棒性强,泛化性能良好。Aiming at the problem that the interference of background and scale changing affect the precision of crowd counting tasks,a crowd counting network CAENet based on attention mechanism and encoder-decoder structure is proposed.The network takes the encoder-decoder structure as the backbone and the multi-scale fusion(MF)module based on the feature pyramid is designed to fuse features with different scale semantic information in the encoder.The channel attention mechanism is introduced,the attention module(AM)is designed with a separate decoding channel,and the attention maps generated by the module are fed to each stage of the decoder to suppress background interference.The network completes the training step by step in a supervised manner and uses the output density map of the last layer as the final prediction.Test results on several publicly available datasets show that the network has high accuracy with robustness and good generalization performance in the crowd counting task for fixed scenes.

关 键 词:人群计数 背景干扰 编解码 多尺度融合 通道注意力机制 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象