小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 小鹏昨天刚刚发布了VLA 2.0,很有意思。 今天柱哥就和大家一起聊下,目前从网上看到的消息有几个关键点总结下: 等后面有更多的信息再详细总结以下,先分享几个网上的信息。 输入有视频、语言文本、指令、Ego,输出Action,另一部分的latent tokens输入到世界仿真器里和Action做交互强化学习。业内的思路整体上都大差不差,还是得看 工程优化做得咋样~ 小鹏的VLA两条路线:V/L→A和V→L→A,V/L→A去掉了语言转译,但仍然以视觉为核心; 首个量产物理世界大模型,最高有效算力达2250TOPS; 世界模型也有参与未来场景预测; 小鹏还是挺舍得在算力上砸钱的,但在一个偶然版本上看到希望... 小鹏VLA的两套方案并行研发,以往的V→L→A和最新的V/L→A。V/L→A更贴合最近特斯拉ICCV分享的内容,L不是作为中间件,而是V的并行输入。 目前开源的几篇算法也有类似的,比如ORION。这样模型可以同步输出感知结果、自车轨迹和对应的思维链。下图是ORION的算法框架: 未来小鹏也将入局robot ...