轻量级VLA模型Evo-1：仅凭0.77b参数取得SOTA，解决低成本训练与实时部署

点击下方卡片，关注" 具身智能之心 "公众号视觉-语言-动作（VLA）模型将感知、语言和控制能力统一起来，使机器人能够通过多模态理解执行多样化任务。然而，当前的VLA模型通常包含海量参数，且高度依赖大规模机器人数据预训练，导致训练过程中的计算成本高昂，同时限制了其在实时推理中的部署能力。此外，多数训练范式常导致视觉-语言backbone模型的感知表征退化，引发过拟合并削弱对下游任务的泛化能力。论文名称： Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment 论文链接： https://arxiv.org/abs/2511.04555 来自上海交大、CMU、剑桥大学的团队提出轻量级VLA模型Evo-1，在无需机器人数据预训练的前提下，既降低计算成本又提升部署效率，同时保持强劲性能。Evo-1基于原生多模态视觉语言模型（VLM），融合创新的交叉调制扩散变换器与优化集成模块，构建高效架构。这里还进一步引入两阶段训练范式，通过逐步协调动作与感知，完整保留VLM的表征能力。编辑丨具身智能之心 ...