没有标题党, 理想系统性重构语言-动作模型
理想TOP2·2026-03-04 07:47

语言理解与物理动作之间的持续性错位是当前VLA落地的核心障碍,现有的解法大致分三类: 改数 据、用强化学习做事后修正、在隐空间做分布对齐。 理想汽车在其论文LinkVLA[1]中认为,这三种路径都在回避问题的本质——它们把对齐当作一个需 要修补的缺陷,而非一个需要从架构层消灭的结构性问题。LinkVLA的三个原创贡献,正是沿着这个 判断展开的。 1.Shared Codebook: 消灭翻译这个动作本身 大多数VLA模型在做的事,是把人类的语言翻译成车辆的动作坐标。翻译总会有损耗,而且这种损 耗没有直接的监督信号去约束它。 LinkVLA的原创性在于,直接把语言和轨迹塑造成了同一种数字方言,从源头上不再需要翻译。 具体而言,LinkVLA将BEV下的连续轨迹坐标,通过对数坐标变换和空间感知量化,离散化为 5,656 个动作 Token,再将这个动作词表与语言模型的文本词表合并,形成一个统一的Shared Codebook。语 言Token和动作Token的嵌入向量在同一个空间内端到端联合学习。这意味着在模型的表征空间里,向 左变道的指令和向左偏移的轨迹不再是两个需要对齐的模态,而是同一个向量空间里的对称点。模 ...

没有标题党, 理想系统性重构语言-动作模型 - Reportify