基于多层级视觉-语言投影与语义引导的行人重识别方法

出　　处：《电子制作》2025年第7期44-50,共7页Practical Electronics

摘　　要：行人重识别技术在智能安防领域具有巨大的应用潜力。针对目前行人图像中语义信息没有被充分利用的问题,提出了一种多层级视觉-语言投影与语义引导的行人重识别方法。该方法分为两个阶段,在第一阶段,固定图像编码器和文本编码器,首先通过一个轻量级网络为每张图像生成元标记来优化文本可学习提示向量,使得模型能够针对每个独立的身份标识(ID)生成具有区分性的文本描述;之后通过多层级视觉-语言投影模块加强多模态提示之间的协同作用,增强泛化能力。在第二阶段,固定编码器与文本提示,同时提出了语义引导模块,利用文本特征来指导视觉特征的表示,从而增强模型对身份特征的识别能力。本文模型在Market1501数据集上mAP和Rank-1达到了90.1%和95.8%,在DukeMTMC-reID数据集上,mAP和Rank-1达到82.8%和90.1%,实验结果证明了方法的有效性。

关键词：行人重识别 CLIP 提示学习多模态

分类号：TP391.9[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于多层级视觉-语言投影与语义引导的行人重识别方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于多层级视觉-语言投影与语义引导的行人重识别方法

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索