3D场景理解

Search documents
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 08:21
开放词汇识别与分类对于全面理解现实世界的 3D 场景至关重要。目前,所有现有方法在训练或推理过程中都依赖于 2D 或文本模态。这凸显出缺乏能够单独处理 3D 数据以进行端到端语义学习的模型,以及训练此类模型所需的数据。与此同时,3DGS 已成为各种视觉任务中 3D 场景表达的重要标准之一。 然而,有效地将语义理解以可泛化的方式集成到 3DGS 中仍然是一个难题。为了突破这些瓶颈,我们 引入了 SceneSplat ,第一个在 3DGS 上原生运行的端到端大 规模 3D 室内场景理解方法。此外,我们提出了一种自监督学习方案,可以从未标记场景中解锁丰富的 3D 特征学习。为了支持所提出的方法,我们采集了 首个针 对室内场景的大规模 3DGS 数据集 SceneSplat-7K ,包含 7916 个场景,这些场景源自七个现有数据集,例如 ScanNet 和 Matterport3D。生成 SceneSplat-7K 所需的 计算资源相当于在 L4 GPU 上运行 150 天。我们在 SceneSplat-7K 上进行了开放词汇和语义分割的测试,均 达到了 state-of-the-art 的效果 。 文章链接:ht ...