基于多模态上下文感知与区域交互建模的广义指称表达分割  

在线阅读下载全文

作  者:汤君豪 邓何霖 雷印杰[1] 

机构地区:[1]四川大学电子信息学院,四川成都610065

出  处:《电子制作》2025年第7期20-26,共7页Practical Electronics

摘  要:广义指称表达分割是一项旨在根据自然语言描述,从图像中分割出目标区域的关键任务。针对现有方法在处理复杂场景(多目标、无目标样本、多模态关系建模及长文本表达)中的局限性,本文提出了一种基于多模态上下文感知与区域交互建模的方法。该方法首先通过上下文感知生成模块动态融合视觉和文本特征,生成多粒度语义查询向量,利用视觉引导的注意力机制自适应调整语言关键词权重,突破传统固定查询对上下文敏感的局限;区域交互建模模块结合区域注意力与Transformer架构,建模图像区域间的空间邻近性和语义关联性,支持多目标复杂关系推理及无目标场景的联合检测;上下文感知平衡模块引入置信度门控机制,动态筛选各查询向量贡献度,抑制噪声并融合多视角语义特征;最终由掩码解码模块整合跨模态特征生成精确分割掩码,并通过全局特征池化实现无目标场景的可靠判定。实验在四个RES基准数据集上验证了所提方法的有效性,结果表明,本文方法不仅在包含多目标与无目标样本的场景中表现出色,还在复杂与长表达形式下显著提升了IoU性能。

关 键 词:广义指称表达分割 多模态 上下文感知 区域交互建模 

分 类 号:TP18[自动化与计算机技术—控制理论与控制工程] TP391.4[自动化与计算机技术—控制科学与工程]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象