图像描述

作品数:296被引量:667H指数:13
导出分析报告
相关领域:自动化与计算机技术文化科学更多>>
相关作者:纪荣嵘王瀚漓李盼池杨有刘威更多>>
相关机构:深圳市腾讯计算机系统有限公司北京邮电大学平安科技(深圳)有限公司北京工业大学更多>>
相关期刊:更多>>
相关基金:国家自然科学基金黑龙江省自然科学基金中央高校基本科研业务费专项资金陕西省自然科学基金更多>>
-

检索结果分析

结果分析中...
条 记 录,以下是1-10
视图:
排序:
基于跨模态级联扩散模型的图像描述方法
《浙江大学学报(工学版)》2025年第4期787-794,共8页陈巧红 郭孟浩 方贤 孙麒 
浙江省自然科学基金资助项目(LQ23F020021).
现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特...
关键词:深度学习 图像描述 扩散模型 多模态编码器 级联结构 
基于特征对齐融合的双波段图像描述生成方法
《现代电子技术》2025年第7期65-71,共7页顾梦瑶 蔺素珍 晋赞霞 李烽源 
山西省自然科学基金项目(202303021211147);山西省知识产权局专利转化专项计划(202302001);国家自然科学基金项目(62406296);山西省留学回国人员科技活动择优资助项目(20230017)。
为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述...
关键词:图像描述 双波段 特征对齐融合 注意力机制 TRANSFORMER 语言模型 Bert 自适应 
多尺度特征融合的图像描述算法
《计算机工程与应用》2025年第7期288-296,共9页白雪冰 车进 吴金蔓 
国家自然科学基金(62366042);宁夏自然科学基金(2023AAC03127)。
针对现有图像描述算法提取的图像特征信息不全面、编码器和解码器模型不统一的问题,提出了多尺度特征融合的图像描述算法。通过多尺度全局特征提取模块和区域特征提取模块分别得到图像的多尺度全局特征和区域特征,通过特征融合模块获得...
关键词:图像描述 多尺度全局特征 区域特征 TRANSFORMER 
基于多模态的干眼图像描述与分级研究
《现代信息科技》2025年第6期110-115,共6页张婉玉 李秀丽 
2023年河南省高等教育教学改革研究与实践项目(研究生教育类)(2023SJGLX112Y);2024年度河南省高等教育教学改革研究与实践项目(2024SJGLX0332)。
在干眼诊断与评估中,眼表荧光素染色图像具有重要临床价值,但人工评估费时费力,不同医生间的评分也影响一致性。为提升诊断效率与准确性,文章提出了基于深度学习的自动化模型OFGD-Net(Ocular Fluorescence Grading and Description Netw...
关键词:深度学习 多模态 干眼 眼表荧光素染色 
局部注意力与Mogrifier-LSTM的图像描述生成方法
《哈尔滨商业大学学报(自然科学版)》2025年第1期3-9,共7页丁云霞 时义舒 胡鹏 胡锐 李德权 
安徽理工大学校级重点项目(QNZD2021-02);淮南市科技计划项目(2020165,2021005);安徽高校自然科学研究项目(2022AH050801);安徽理工大学引进人才基金(13210679)。
针对公共场景复杂,编码器较难捕捉到场景图像中人-物之间的复杂关系所导致的解码器端无法准确理解图像语义问题,提出基于局部注意力机制与改进长短期记忆网络LAM-LSTM的公共场景图像描述方法.通过引入局部注意力来关注整个场景中重点区...
关键词:公共场景图像理解 注意力机制 文本特征 自然语言描述 图像语义 
融合扩散文本的图像描述算法
《兰州大学学报(自然科学版)》2025年第1期8-16,共9页刘仲民 王学臻 胡文瑾 
国家自然科学基金项目(62061042);甘肃省工业过程先进控制重点实验室开发基金项目(2022KX10)。
针对图像描述任务中特征信息利用不充分、背景信息易被忽略、生成语句的可控性存在欠缺等问题,使用特征融合模块和基于Transformer编/解码器的文本解码增强网络,提出一种融合扩散文本的图像描述算法.输入图像由Vision Transformer骨干...
关键词:图像描述 特征融合 Transformer模型 扩散模型 强化学习 
基于视觉和语言感知增强的图像描述生成模型
《计算机工程与设计》2025年第1期223-229,共7页彭玉青 陈姣 高萱 任梓瑜 
河北省自然科学基金项目(F2021202038)。
为解决Transformer未充分利用低层编码器视觉信息和解码器中已生成单词信息不断被稀释的问题,提出一种用于图像描述的增强视觉与语言信息的Transformer架构,即VALRT模型。通过在基础Transformer模型上建立一个视觉感知增强模块(VR),以...
关键词:图像描述 TRANSFORMER 深度学习 注意力机制 多模态 编码器 解码器 
多模融合的陶瓷图像中文描述生成方法研究
《福建电脑》2025年第1期11-17,共7页胡智猛 彭永康 张秀娟 
景德镇市级科技计划项目(No.2023GY001-01);江西省03专项及5G项目(No.20232ABC03A29);高等学校大学生创新创业训练计划项目(No.202310408016)资助。
早期的陶瓷图像描述生成方法存在识别和描述准确性不足的问题。针对这些问题,本文提出一种基于深度残差网络和特征金字塔网络的多尺度图像特征提取方法,并利用带有加性注意力机制的长短期记忆网络生成中文描述的Res-FL模型。实验结果表...
关键词:陶瓷图像 图像描述 图像特征提取 
例析求解简谐波问题的两种方法
《中学生数理化(高考理化)》2025年第1期21-22,共2页陈金山 胡劲松 
介质的质点做简谐运动,形成简谐波。简谐波是高中阶段重点研究的波,为了直观形象地描述质点的振动情况和波的传播情况,通常采用振动方程y=Asin(2πt/T+φ_(0))或y-t图像描述某一质点在任意时刻的位移,采用y-x图像描述某一时刻各质点的...
关键词:简谐波 图像描述 振动方程 质点振动 简谐运动 振动情况 高中阶段 波的传播 
基于双信息流Transformer的图像描述生成
《计算机技术与发展》2025年第1期38-45,共8页范小瑞 张晓滨 
陕西省自然科学基础研究计划项目(2023-JC-YB-568)。
针对图像描述生成中由于视觉信息不足,模型会忽略背景信息,并且难以准确捕捉目标之间的相对位置关系,导致生成的句子未能准确、完整地描述图像中的场景问题,提出了一个针对图像描述领域的双信息流Transformer模型(DIFTN)。首先,该网络...
关键词:图像描述 双信息流Transformer 全景分割 卷积位置学习 交叉注意力融合 
检索报告 对象比较 聚类工具 使用帮助 返回顶部