检索规则说明:AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
检 索 范 例 :范例一: (K=图书馆学 OR K=情报学) AND A=范并思 范例二:J=计算机应用与软件 AND (U=C++ OR U=Basic) NOT M=Visual
作 者:聂葳 叶成炜 杨家慧 哈雯 段班祥[1] 桂改花 苑占江 黄海锋
机构地区:[1]广东科学技术职业学院计算机工程技术学院(人工智能学院),广东珠海519090
出 处:《电子制作》2024年第22期61-66,共6页Practical Electronics
基 金:2024年广东省普通高校青年创新人才项目(编号:2024KQNCX295);基于昇腾NPU的无人机电力线路巡检图像缺陷识别算法研究及实现(编号:2021ZDZX3029);广东省继续教育质量提升工程(编号:JXJYGC2022GX111);2022年计算机视觉应用创新团队(编号:2022KCXTD047);2023年广东省普通高校青年创新人才项目(编号:2023KQNCX185);广东省普通高校特色创新项目非马氏细胞内部随机过程的建模与分析(编号:2020KTSCX238);广东省智慧职教工程技术研究中心(编号:2021A118)。
摘 要:本文聚焦于多模态图像语义关联问题,采用CHINESE-CLIP模型结合迁移学习技术,探索了基于文本的图像检索和基于图像的文本检索两种方法。研究采用了CHINESE-CLIP多模态预训练神经网络,通过融合文本和图像特征提取技术,实现了文本与图像在统一空间内的高效匹配。在图像检索文本的任务中,对比了CN-CLIPViT-B/16和CN-CLIPViT-L/14两种模型的性能,结果表明CN-CLIPViT-L/14模型在语义关联上表现更为优异。在基于图像的文本检索方面,模型利用Vision Transformer(ViT)图像编码器和对比损失进行训练。ViT通过将图像分割成固定大小的图块,采用自注意力机制处理序列元素,并通过前馈网络进一步提取特征,最终实现图文互检的能力。最终,图文检索模型在图像检索文本的准确率:R1为76.56%,R5为94.17%,R10为97.48%;在文本检索图像的准确率:R1为70.73%,R5为94.80%,R10为97.25%。
关 键 词:CHINESE-CLIP多模态预训练神经网络 CN-CLIPViT-L/14 Vision Transformer(ViT)
分 类 号:TP39[自动化与计算机技术—计算机应用技术]
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在载入数据...
正在链接到云南高校图书馆文献保障联盟下载...
云南高校图书馆联盟文献共享服务平台 版权所有©
您的IP:216.73.216.200