多尺度的开放词汇目标检测  

Multi-scale Open Vocabulary Target Detection

在线阅读下载全文

作  者:祝岚 翟亚红[1] 徐龙艳[1] 王杰 赵逸凡 叶子恒 Zhu Lan;Zhai Yahong;Xu Longyan;Wang Jie;Zhao Yifan;Ye Ziheng(School of Electrical&Information Engineering,Hubei University of Automotive Technology,Shiyan 442002,China)

机构地区:[1]湖北汽车工业学院电气与信息工程学院,湖北十堰442002

出  处:《湖北汽车工业学院学报》2024年第3期77-80,共4页Journal of Hubei University Of Automotive Technology

基  金:湖北省科技厅重点研发计划项目(2022BEC008);湖北省教育厅科学技术研究计划项目(D20211802)。

摘  要:现有的开放词汇目标检测算法在处理图像和文本对应关系时容易丢掉多尺度信息,导致对小目标检测的精度较低。针对这个问题,文中结合Channel Attention机制与特征金字塔网络构建C-FPN模块,提出C-Baron算法。在区域选择阶段,C-Baron采用区域打包对齐方法处理图像与文本的对应关系。实验表明:相对于基线模型,C-Baron在新类别和基础类别上的识别精度分别提高了2%和6.3%。Existing open vocabulary target detection algorithms tend to discard multi-scale information when dealing with image-text correspondence,resulting in lower accuracy in small target detection.To address this issue,a C-Baron algorithm was proposed by combining the channel attention mechanism with feature pyramid networks to construct the C-FPN module.In the region selection stage,C-Baron adopted a region packing alignment method to handle the image-text correspondence.The experimental results show that compared with the baseline model,C-Baron achieves an improved recognition accuracy of 2% for new categories and 6.3% for base categories.

关 键 词:开放词汇目标检测 多尺度信息 多模态处理 图片文本对齐 C-FPN模块 

分 类 号:TP389.1[自动化与计算机技术—计算机系统结构]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象