Workflow
SGDrive
icon
Search documents
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 00:48
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 论文作者 | Jingyu Li等 编辑 | 自动驾驶之心 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合完成的新工作 - SGDrive。在这篇工作里面柱哥看到了一些对量产的思考,比如高速直行时应该扩展感 知范围,而转弯时则应聚焦弯道内侧(图6)。 理想的情况下,自动驾驶应该像人类一样,分层次的理解世界:先感知整体环境( Scene Cognition ) → 再聚焦影响自车行为的关键目标( Agent Cognition ) → 最 后形成局部的驾驶目标( Goal Cognition ),并进一步生成Action(轨迹)。但现有的VLM虽然具有强大的认知能力,但作为通用模型,缺乏对驾驶领域的专业理 解,特别是在3D空间和时间维度上难以建立结构化的时空表征。 这篇工作也在探索一个问题: 世界模型到底应该生成什么才能对VLA有效? 生成图像、生成结构化信息,还是生成隐特征? 生成图像会带来冗余的像素信息,预测结 果与当前观察存在大量重叠且缺乏空间信息;生成结构化信息虽有空间维度,但大部分信息仍与自 ...