基于图像特征聚合和局部文本关联的开放词汇3D场景理解  

作  者:瞿诗义 雷印杰[1] 

机构地区:[1]四川大学电子信息学院,四川成都610065

出  处:《电子制作》2025年第5期28-34,共7页Practical Electronics

摘  要:3D场景理解是计算机视觉中的一项关键任务,旨在获得物体及其周围环境的全面语义信息。现有的3D场景理解任务在封闭集基准测试中取得了高性能,但在实际应用中无法处理新类别。针对上述问题,本文提出了一种基于图像特征聚合和局部文本关联的开放词汇3D场景理解方法。首先,方法通过构建3D场景点与来自姿态图像的像素之间的关联,并利用图像特征聚合模块提取像素级CLIP特征,为3D点云网络提供监督;其次,为了进一步提高对齐效率并增强模型性能,本文显式构建了点云-文本的对齐支路,并设计了局部关联字幕生成模块,生成细粒度且局部相关的文本描述,从而实现了点云、文本和图像特征的深度对齐;此外,设计了基于提示引导的文本特征增强模块,为提取与类别高度相关的CLIP文本特征提供了简单而有效的方法。在Scannet和S3DIS数据集上进行了实验,结果表明该方法无论在无标注语义分割任务还是基于基本类别的开放词汇语义分割任务上都表现优越,超越了大多数现有的同类方法,证明了该方法的有效性。

关 键 词:3D场景理解 开放词汇 图像特征聚合 局部关联字幕 CLIP 特征增强 

分 类 号:TP391.41[自动化与计算机技术—计算机应用技术]

 

参考文献:

正在载入数据...

 

二级参考文献:

正在载入数据...

 

耦合文献:

正在载入数据...

 

引证文献:

正在载入数据...

 

二级引证文献:

正在载入数据...

 

同被引文献:

正在载入数据...

 

相关期刊文献:

正在载入数据...

相关的主题
相关的作者对象
相关的机构对象