具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上，视觉 - 语言 - 动作（Visual-Language-Action, VLA）模型使用大量机器人操作数据进行预训练，有望实现通用的具身操作能力。然而，现有 VLA 基座模型的能力仍存在很大不足，在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练（Post-Training），特别是当目标场景本体和预训练本体存在差异时，预训练和后训练阶段的动作分布出现严重失配，从而引发了 VLA 模型跨本体适配（Cross-Embodiment Adaption）挑战。在后训练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减，也难以有效拟合目标场景动作分布。为了解决该问题，中国电信人工智能研究院( TeleAl )具身智能团队提出了一种 " 对齐 - 引导 - 泛化"（Align then Steer, ATE）的 VLA 跨本体泛化框架，破解了 VLA 后训练难题。其核心思想是在潜空间中对齐跨本体动作分布，从而在后训练利用统一潜空间梯度引导 VLA 策略的更新方向。无需改动现有 VLA 主干架构，实现了 VLA 模型后训练从调架构向调分布的范式转移， ...