华科&小米SparseOccVLA:统一的4D场景理解预测和规划,nuScenes新SOTA......
自动驾驶之心·2026-01-19 03:15

点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Chenxu Dang等 编辑 | 自动驾驶之心 在自动驾驶领域,视觉-语言模型(Vision Language Models, VLMs) 擅长高层语义理解与推理,而语义占据(Semantic Occupancy) 则能够提供精细、结构化的空间 细节。尽管这两个方向各自取得了显著进展,但目前仍缺乏一种能够有效融合二者的统一方法。 一方面,传统 VLM 在自动驾驶场景中面临 token 数量爆炸 以及 时空推理能力受限 等问题;另一方面,语义占据通过统一且显式的空间表示建模环境,但其表示过于 稠密,难以高效地与 VLM 进行集成。 为了解决上述挑战并弥合 VLM 与占据表示之间的鸿沟, 华科、小米和清华AIR的团队提出了 SparseOccVLA ,一种新的 视觉-语言-动作(Vision-Language-Action, VLA)模型,通过 稀疏占据查询(Sparse Occupancy Queries) 实现了场景理解、占据预测与轨迹规划的 ...

华科&小米SparseOccVLA:统一的4D场景理解预测和规划,nuScenes新SOTA...... - Reportify