冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心·2025-12-26 09:18
作者 | 郑纯然Range 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1921620079314961855 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 它并不完全是黑盒,最近NVIDIA有个工作CoT-VLA,就主要展示了VLA思维链并拆分为三层: 和人的思考模式真挺像的。 真正的挑战在于让模型学会泛化。 在遮挡/复杂背景/3D空间中的表现,关键是要把subgoal embedding设计好来保证泛化性。要保证subgoal embedding具有: 例如用cross-attention: 任务文本token attend到图像patch token,上面4条都能保证,可能效果就不错。 说不定,learning方法在复杂环境下反而更有优势。 昨晚睡前刷到一篇批判VLA的帖子,说"有些搞VLA公司又懒又蠢... (此处省略2000个字)",全篇非常犀利,我整理了下弗雷哥 (答主) 说的几个槽点: 肯定不能全盘否定 ...