VLA处理思路 - filings, earnings calls, financial reports, news - Reportify

VLA处理思路

Search documents

理想对VLA的处理思路有可能发生了本质变化

理想TOP2· 2026-03-04 17:17

本质变化在于，认为动作不应该是LLM的输出结果，而应该是LLM的原生语言。通过将坐标直接 token化并引入对数空间分布，让LLM具备了直接操纵物理空间的能力，而不再需要中间的diffusion这个翻译官。 Token从高维环境特征到物理坐标贾鹏版的action token是高维环境特征编码思路，包含模型对周围3D空间(基于3DGS高斯表征) 的理解、其他交通参与者的一侧状态以及自车的意图，这种高维环境特征token需要通过 diffusion这个翻译官，才能生成对应的轨迹。Token承载的是3D几何和语义信息，强调的是对环境的理解。而LinkVLA版的action token是离散化的BEV空间坐标，每个action token对应一个唯一的网格坐标，模型输出的不是一个复杂的环境特征包，而是一个由位置token组成的序列，模型把环境理解留在了LLM的隐藏层里(包括3DGS提取的特征)，输出层的token只代表位置。 LLM像预测苹果这个词一样，直接预测坐标网络ID。动作与语言在底层共享同一个词表，从实质上进行了结构化对齐。读者有任何不同意见，都欢迎随时指出与交流，TOP2可能存在错误理解。 ...

VLA处理思路

VLA处理思路