世界建模

Search documents
世界模型VLA!DriveVLA-W0:7000万数据解锁自动驾驶VLA Scaling(中科院&引望)
自动驾驶之心· 2025-10-17 00:03
为验证DriveVLA-W0的通用性,本文在两种主流VLA架构上展开验证:针对采用离散视觉token的VLA模型,设计 自回归世界模型 ;针对基于连续视觉特征的VLA 模型,设计 扩散世界模型 。基于世界建模学习到的丰富表征,本文进一步引入轻量级动作专家(action expert),以解决实时部署中的推理耗时问题。 在NAVSIM v1/v2基准上及公司内部70M的私有数据集上开展的大量实验表明,DriveVLA-W0显著优于BEV和VLA的baseline。关键在于,该范式能 放大data scaling law ——随着训练数据集规模增大,模型性能提升速度会加快。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Yingyan Li等 编辑 | 自动驾驶之心 中科院和华为引望最新推出了一篇名为DriveVLA-W0的训练范式,难得的探索自动驾驶scaling law的VLA工作。 DriveVLA-W0的团队认为VLA模型受限于"监督不 足"的问题:模型的庞大容量仅由稀疏、低维的动作信 ...