GLCrowd:基于全局-局部注意力的弱监督密集场景人群计数模型

GLCrowd:a weakly supervised global-local attention model for congested crowd counting

作　　者：张红民田钱前颜鼎鼎卜令宇 Zhang Hongmin;Tian Qianqian;Yan Dingding;Bu Lingyu(School of Electrical and Electronic Engineering,Chongqing University of Technology,Chongqing 400054,China)

机构地区：[1]重庆理工大学电气与电子工程学院,重庆400054

出　　处：《光电工程》2024年第10期75-86,共12页Opto-Electronic Engineering

基　　金：重庆市自然科学基金面上项目(cstc2021jcyj-msxmX0525,CSTB2022NSCQ-MSX0786,CSTB2023NSCQ-MSX0911);重庆市教委科学技术研究项目(KJQN202201109)。

摘　　要：针对人群计数在密集场景下存在背景复杂、尺度变化大等问题,提出了一种结合全局-局部注意力的弱监督密集场景人群计数模型——GLCrowd。首先,设计了一种结合深度卷积的局部注意力模块,通过上下文权重增强局部特征,同时结合特征权重共享获得高频局部信息。其次,利用Vision Transformer(ViT)的自注意力机制捕获低频全局信息。最后,将全局与局部注意力有效融合,并通过回归令牌来完成计数。在Shanghai Tech PartA、Shanghai Tech PartB、UCF-QNRF以及UCF_CC_50数据集上进行了模型测试,MAE分别达到了64.884、8.958、95.523、209.660,MSE分别达到了104.411、16.202、173.453、282.217。结果表明,提出的GLCrowd网络模型在密集场景下的人群计数中具有较好的性能。To address the challenges of crowd counting in dense scenes,such as complex backgrounds and scale variations,we propose a weakly supervised crowd counting model for dense scenes,named GLCrowd,which integrates global and local attention mechanisms.First,we design a local attention module combined with deep convolution to enhance local features through context weights while leveraging feature weight sharing to capture high-frequency local information.Second,the Vision Transformer(ViT)self-attention mechanism is used to capture low-frequency global information.Finally,the global and local attention mechanisms are effectively fused,and counting is accomplished through a regression token.The model was tested on the Shanghai Tech Part A,Shanghai Tech Part B,UCF-QNRF,and UCF_CC_50 datasets,achieving MAE values of 64.884,8.958,95.523,and 209.660,and MSE values of 104.411,16.202,173.453,and 282.217,respectively.The results demonstrate that the proposed GLCrowd model exhibits strong performance in crowd counting within dense scenes.

关键词：人群计数 Vision Transformer 全局-局部注意力弱监督学习

分类号：TP391[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

GLCrowd:基于全局-局部注意力的弱监督密集场景人群计数模型

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

GLCrowd:基于全局-局部注意力的弱监督密集场景人群计数模型

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索