Workflow
3D占用率表示
icon
Search documents
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-15 23:33
❝ 自动驾驶VLA的空间理解能力,亟需新的突破。 (1)在无需昂贵人工标注的情况下,构建可用且有效的3D表示存在难度; (2)由于缺乏大规模3D视觉-语言预训练,视觉-语言模型(VLMs)中的细粒度空间细节有所丢失。 论文标题:OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision 论文链接:https://arxiv.org/abs/2509.05578 现有研究已针对这一挑战开展了大量探索(如图1(a)所示)。在基于VLM的感知流水线中,监督依赖于文本描述的3D标注(例如坐标或边界框),这类标注本质上具 有稀疏性且信息量有限。生成此类标注需要大量人工标注工作,从而限制了模型的可扩展性。如图1(b)所示,近年有部分方法尝试整合3D输入,但它们受限于两个问 题:一是缺乏大规模3D视觉-语言预训练数据,二是缺乏针对复杂空间场景的详细描述文本。这类3D VLMs通常将重点放在文本输出的监督上,却忽略了丰富的3D视觉模 态信息,因此在自动驾驶的空间理解能力方面仍有提升空间。 在这一背景下,核心挑战主要体现在两方面:(1) ...