基于特征增强和历史帧选择的Transformer视觉跟踪算法  被引量:2

Feature enhancement and history frame selection based Transformer visual tracking

在线阅读下载全文

作  者:侯志强 杨晓麟 马素刚 王云龙[1,2] 余旺盛 王昀琛[1,2] HOU Zhi-qiang;YANG Xiao-lin;MA Su-gang;WANG Yun-long;YU Wang-sheng;WANG Yun-chen(School of Computer,Xi’an University of Posts&Telecommunications,Xi’an 710121,China;Shaanxi Key Laboratory of Network Data Analysis and Intelligent Processing,Xi’an University of Posts&Telecommunications,Xi’an 710121,China;School of Information&Navigation,Air Force Engineering University,Xi’an 710100,China)

机构地区:[1]西安邮电大学计算机学院,西安710121 [2]西安邮电大学陕西省网络数据分析与智能处理重点实验室,西安710121 [3]空军工程大学信息与导航学院,西安710100

出  处:《控制与决策》2024年第10期3506-3512,共7页Control and Decision

基  金:国家自然科学基金项目(62072370);陕西省自然科学基金项目(2023-JC-YB-598)。

摘  要:为进一步提升跟踪算法在历史帧信息利用和目标特征表达方面的性能,提出基于特征增强和历史帧选择的Transformer视觉跟踪算法(feature enhancement and history frame selection based Transformer visual tracking, FEHST).首先,在骨干网络中引入动态预测模块,通过稀疏化策略提高自注意力机制的计算效率,聚焦目标区域特征;其次,提出特征增强模块,将局部信息与全局信息的优势相结合,提升特征的表达能力;最后,采用自适应历史帧选择策略,提升跟踪器对目标动态信息的关注.在LaSOT、TrackingNet、GOT-10K和OTB100等数据集上进行了大量的实验,实验结果显示,在LaSOT、TrackingNet、OTB100上分别取得70.1%、83.0%和71.6%的成功率,在GOT-10K上取得71.4%的平均重叠度,并能以27 FPS的速度运行.To enhance the performance of tracking algorithms in utilizing historical frame information and articulating target features,this paper proposes the feature enhancement and history frame selection based Transformer visual tracking(FEHST)algorithm.Firstly,a dynamic prediction module is integrated into the backbone network with a sparsification strategy to enhance the self-attention mechanism’s computational efficiency,focusing on the target region’s features.Then,a feature enhancement module is introduced,merging local and global information to improve feature representation.Finally,an adaptive history frame selection strategy is adopted to enhance focus on target dynamics and algorithm robustness.Experiments on LaSOT,TrackingNet,GOT-10K,and OTB100 datasets are carried out to validate the algorithm,showing success rates of 70.1%,83.0%,and 71.6%,and a 71.4%average overlap on GOT-10K,at 27 FPS.

关 键 词:计算机视觉 视觉跟踪 深度学习 注意力机制 历史帧选择 TRANSFORMER 

分 类 号:TP391.4[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象