理想汽车如何看待VLA里语言部分的作用
自动驾驶之心·2025-09-08 03:32
来源 | 理想TOP2 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 语言是认知世界的框架,而不仅是沟通工具。人类所能思考、理解和表达的一切,都被限制在语言的范畴之内。我们所理解的世界,很大程度上是我们所使用的语 言的产物,对于无法用语言表述的事物,我们难以形成清晰的思想。而且,不同的语言以其独特的词汇、语法和结构,为使用者提供了不同的认知框架。所以我们 会看到,来自于不同语言体系的人,其思维方式是有差别的。 在VLA架构里面,V是感知,A是动作,而L承担的是语言能力部分。L对V感知的内容做出认知理解并形成A的行动规划和决策。VLA的L不是用语言做显式的文字 推理,而是用人类语言提供的数据学习做隐式的逻辑推理,这才是L真正的核心。很多人以为L就是输出在交互界面的那几行文字以及语音控制命令,这个理解是 不对的。其实文字输出和语音输入都是可选的,输不输出都不太关键(看人类想不想要),真正发挥作用的是背后推理的长思维链。如果没有强大的L,再好的V 和A都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球, ...