突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知

为此，由中国科学院自动化研究所与灵宝 CASBOT 共同提出了 QDepth-VLA —— 一种结合量化深度预测（Quantized Depth Prediction）的 3D 信息增强型 VLA 模型。它通过独立的 Depth Expert 模块来学习离散化的深度表示。这种设计在保持原有语义对齐能力的同时，显著提升了机器人在复杂操作场景下的空间推理与操控精度。视觉-语言-动作模型（VLA）在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型（VLM）动作生成能力，机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而，这类模型在应对长时序或精细操作任务时，仍然存在性能下降的现象。这种现象的根源在于，模型虽具备语义理解能力，却缺乏对三维空间的几何感知与推理能力，导致其难以准确捕捉如机械臂夹爪与物体之间相对位置关系等关键三维信息。论文标题：QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models 论文链接： https://arxiv.o ...