Workflow
VLA + WM融合
icon
Search documents
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 03:36
观点:VLA和WA正在逐渐走向融合统一。 前两个月就有人跟我提过,VLA和WA不应该是互相排斥的两个技术路线,未来应该的融合的趋势。所以十月 份我们看到了中科院&引望团队的工作DriveVLA-W0,证明VLA+WM结合是走得通的。小米的陈龙老师也在 小红书上聊到这篇工作: 我个人认为语言预测和未来预测是两种具身都需要的能力!!! 语言 (L) → 抽象推理 • 引入互联网的海量知识。 • 负责 high-level 的逻辑、常识和推理。 世界模型 (WM) → 物理/运动规律 • 通过预测未来的像素或状态,涌现出semantics和depth,速度感知等low-level能力。 一个管"抽象思考",一个管" 物理感知",完全没必要拉踩!VLA + WM 的结合,才是通往更强通用具身智能 (AGI) 的答案 学术界早就对VLA和WM融合做了很多的探索,比较典型的工作有: VLA-RFT:在WM中强化学习微调VLA WorldVLA:视觉+语言+行为,三合一"全能模型" Unified Vision-Language-Action Model:离散化"三模态",实现生成和理解的大一统 DriveVLA-W0:W ...