基于图像特征聚合和局部文本关联的开放词汇3D场景理解

出　　处：《电子制作》2025年第5期28-34,共7页Practical Electronics

摘　　要：3D场景理解是计算机视觉中的一项关键任务,旨在获得物体及其周围环境的全面语义信息。现有的3D场景理解任务在封闭集基准测试中取得了高性能,但在实际应用中无法处理新类别。针对上述问题,本文提出了一种基于图像特征聚合和局部文本关联的开放词汇3D场景理解方法。首先,方法通过构建3D场景点与来自姿态图像的像素之间的关联,并利用图像特征聚合模块提取像素级CLIP特征,为3D点云网络提供监督;其次,为了进一步提高对齐效率并增强模型性能,本文显式构建了点云-文本的对齐支路,并设计了局部关联字幕生成模块,生成细粒度且局部相关的文本描述,从而实现了点云、文本和图像特征的深度对齐;此外,设计了基于提示引导的文本特征增强模块,为提取与类别高度相关的CLIP文本特征提供了简单而有效的方法。在Scannet和S3DIS数据集上进行了实验,结果表明该方法无论在无标注语义分割任务还是基于基本类别的开放词汇语义分割任务上都表现优越,超越了大多数现有的同类方法,证明了该方法的有效性。

关键词：3D场景理解开放词汇图像特征聚合局部关联字幕 CLIP 特征增强

分类号：TP391.41[自动化与计算机技术—计算机应用技术]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于图像特征聚合和局部文本关联的开放词汇3D场景理解

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

高级检索检索式检索

时间限定

期刊范围

学科限定全选

高级检索 检索式检索

时间限定

期刊范围

学科限定全选

基于图像特征聚合和局部文本关联的开放词汇3D场景理解

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

相关期刊文献：

相关的主题

相关的作者对象

相关的机构对象

下载全文

用户登录

高级检索检索式检索