基于多层级视觉-语言投影与语义引导的行人重识别方法  

在线阅读下载全文

作  者:邱子阳 雷印杰[1] 

机构地区:[1]四川大学电子信息学院,四川成都610065

出  处:《电子制作》2025年第7期44-50,共7页Practical Electronics

摘  要:行人重识别技术在智能安防领域具有巨大的应用潜力。针对目前行人图像中语义信息没有被充分利用的问题,提出了一种多层级视觉-语言投影与语义引导的行人重识别方法。该方法分为两个阶段,在第一阶段,固定图像编码器和文本编码器,首先通过一个轻量级网络为每张图像生成元标记来优化文本可学习提示向量,使得模型能够针对每个独立的身份标识(ID)生成具有区分性的文本描述;之后通过多层级视觉-语言投影模块加强多模态提示之间的协同作用,增强泛化能力。在第二阶段,固定编码器与文本提示,同时提出了语义引导模块,利用文本特征来指导视觉特征的表示,从而增强模型对身份特征的识别能力。本文模型在Market1501数据集上mAP和Rank-1达到了90.1%和95.8%,在DukeMTMC-reID数据集上,mAP和Rank-1达到82.8%和90.1%,实验结果证明了方法的有效性。

关 键 词:行人重识别 CLIP 提示学习 多模态 

分 类 号:TP391.9[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象