博世一篇最新的端到端世界模型工作:统一理解、规划和生成
自动驾驶之心·2026-01-12 03:15

点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhexiao Xiong等 编辑 | 自动驾驶之心 博世北美研究院与博世人工智能中心最新的工作,Liu Ren参与。 提出 UniDrive-WM—— 一种基于视觉 - 语言模型(VLM)的统一世界模型 ,在单一架构中联合实现驾驶场景理解、轨迹规划与轨迹条件下的未来图像生成,解决 了传统方法中感知、预测、规划模块分离导致的信息瓶颈问题,显著提升自动驾驶的规划准确性与安全性。 在ORION上进一步改进 ,L2 轨迹误差降低 5.9%,碰撞率降低 9.2%;闭环驾驶分数(DS=79.22)、成功率(SR=56.36%),整体效果还可以。 世界模型已成为自动驾驶领域的核心,其中精准的场景理解与未来预测对于安全控制至关重要。近年来的研究已探索将视觉-语言模型(VLMs)用于规划任务,但 现有方法通常将感知、预测和规划视为独立模块。UniDrive-WM 的轨迹规划器会预测未来轨迹,该轨迹为基于视觉-语言模型的图像生成器提供条件,以生成合理 的未来帧。 ...