VLA处理思路
Search documents
理想对VLA的处理思路有可能发生了本质变化
理想TOP2· 2026-03-04 17:17
本质变化在于,认为动作不应该是LLM的输出结果,而应该是LLM的原生语言。通过将坐标直接 token化并引入对数空间分布,让LLM具备了直接操纵物理空间的能力,而不再需要中间的diffusion这 个翻译官。 Token从高维环境特征到物理坐标 贾鹏版的action token是高维环境特征编码思路,包含模型对周围3D空间(基于3DGS高斯表征) 的理解、其他交通参与者的一侧状态以及自车的意图,这种高维环境特征token需要通过 diffusion这个翻译官,才能生成对应的轨迹。Token承载的是3D几何和语义信息,强调的是对环 境的理解。 而LinkVLA版的action token是离散化的BEV空间坐标,每个action token对应一个唯一的网格 坐标,模型输出的不是一个复杂的环境特征包,而是一个由位置token组成的序列,模型把环境 理解留在了LLM的隐藏层里(包括3DGS提取的特征),输出层的token只代表位置。 LLM像预测苹果这个词一样,直接预测坐标网络ID。动作与语言在底层共享同一个词表,从实质 上进行了结构化对齐。 读者有任何不同意见,都欢迎随时指出与交流,TOP2可能存在错误理解。 ...