端到端AI算法
Search documents
小鹏加速冲向L4终局:对VLA架构「动刀」成关键一环
机器之心· 2026-03-06 11:07
编辑|泽南、杜伟 两个月前的 CES 上,黄仁勋开源了英伟达的首个 VLA(视觉 - 语言 - 动作)模型,并高调宣称物理 AI 的「ChatGPT 时刻」马上就要到来。 如今,物理世界的 AI 正在成为一个重要趋势:从机器人到辅助驾驶,越来越多的公司正在尝试用 VLA 模型来重构机器与物理世界交互的方式。 在辅助驾驶领域,端到端的 VLA 方法已经经历了大量验证,实现了前所未有的效果。然而,这种架构面临一个天然挑战:作为中间层的语言难以完整准确表达现 实物理世界的全部细节。李飞飞曾在一次访谈中表示,「语言本身只是对物理世界的一种有损表达。」 在需要实时理解环境并生成驾驶决策的自动驾驶环境中,通过语言这一中间层来描述物理世界既有可能引入信息损失,还会增加额外推理路径。随着驾驶场景复 杂度的增加,这种架构缺陷制约了系统准确率与效率的继续提升。 针对这一痛点,小鹏汽车给出的创新性解法是: 直接去掉「语言转译」环节,在业界首次实现从视觉信号到动作指令的端到端直接生成 。这正是其在去年 11 月 亮相的第二代 VLA(XPENG VLA 2.0),并在此后数月完成了 468 个版本更新。 新技术很快产生了质变:在 3 ...