基于注意力网络融合的图像文本跨模态检索算法  

Image Text Cross-Modal Retrieval Algorithm Based on Attention Network Fusion

在线阅读下载全文

作  者:张志亮 ZHANG ZhiLiang(Hunan Financial&Industrial Vocational-Technical College,Hengyang 421002,China)

机构地区:[1]湖南财经工业职业技术学院,湖南衡阳421002

出  处:《电视技术》2024年第11期78-81,共4页Video Engineering

摘  要:在计算机和人工智能领域,图像文本跨模态检索受到广泛的关注。然而,当前的图像文本跨模态检索方法往往仅粗略地融合图像文本特征信息,导致所学习的特征信息质量不高。对此,设计融合注意力网络计算的图像文本跨模态检索算法。通过训练该模型,能够挑选出最优的参数,能够有效融合图像文本特征信息,进而学习出信息更丰富的图像文本特征,使得图像和文本的对齐特征更加精准。Image text cross-modal retrieval has received extensive attention in the field of computer and artificial intelligence.However,the existing image text cross-modal retrieval methods usually roughly fuse the image text feature information,which leads to the low quality of the learned feature information.In this paper,an image text cross-modal retrieval algorithm integrating attention network computing is designed.By training the fusion attention network to select the optimal model parameters,the image text feature information can be better fused,and the image text features with richer information can be learned,so that the image and text alignment features are more accurate.

关 键 词:跨模态检索 图像文本特征 融合注意力网络 模型参数 

分 类 号:TP311.1[自动化与计算机技术—计算机软件与理论]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象