Workflow
World Model
icon
Search documents
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 09:29
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 最近自动驾驶的两大前沿方向:VLA和世界模型,已经有明显的融合趋势 。这一想法是十月份看到中科院的 DriveVLA-W0,因此笔者借这个机会分别调研了 VLA 和 World Model 相关的工作,并且思考一下 这二者结合 的可能性。 太长不看版: VLA和世界模型并不冲突,终极目标是一致的。世界模型可以作为数据引擎、闭环引擎,甚至可以参与到VLA 的模型训练过程中,融合是大趋势,落地是我全都要。 经过几周的调研、分析,有了些成果和自己的心得,所以也想理一理,分享给自动驾驶之心的小伙伴们,主 要分为以下几个部分: 输入端:融合多模态感知 VLA的输入整合了视觉、传感器与语言等多模态的信息。核心视觉输入通过多摄像 头图像生成BEV或体素表征,以理解空间结构;传感器(如激光雷达、毫米波雷达)提供几何与动态补充; 语言输入则是关键创新,支持导航指令、交互问答与规则描述,使系统能理解人类意图与常识,构建出超越 传统纯视觉感知的环境理解。 自动驾驶技术诞生到发展至 ...
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 00:06
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 最近自动驾驶的两大前沿方向:VLA和世界模型,已经有明显的融合趋势 。这一想法是十月份看到中科院的DriveVLA-W0,因此笔者借这个机会分别调研了 VLA 和 World Model 相关的工作,并且思考一下 这二者结合的可能性。 经过几周的调研、分析,有了些成果和自己的心得,所以也想理一理,分享给自动驾驶之心的小伙伴 们,主要分为以下几个部分: 那么,这两个看似不同的技术路线,究竟哪条路线更胜一筹?它们是对手,还是最终会携手并进的伙伴?本文将给大家深度解析。首先,咱们聊一聊二者分别是什 么。因为自动驾驶之心平台有发过这两个路线的详解,这里笔者就 high level 的概括一下,感兴趣地小伙伴可以翻翻之前的文章,讲地更为详细。 关于VLA和世界模 型的更多探讨,后面也会在「自动驾驶之心知识星球」内部和大家展开...... 什么是 VLA? VLA ,全称 Vision-Language-Action, 即"视觉-语言-行动"模型 。 是一个多模态大脑, ...