Workflow
轻量级VLA模型Evo-1:仅凭0.77b参数取得SOTA,解决低成本训练与实时部署
具身智能之心·2025-11-12 04:00

点击下方 卡片 ,关注" 具身智能 之心 "公众号 视觉-语言-动作(VLA)模型将感知、语言和控制能力统一起来,使机器人能够通过多模态理解执行多样化任务。然而,当前的VLA模型通常包含海 量参数,且高度依赖大规模机器人数据预训练,导致训练过程中的计算成本高昂,同时限制了其在实时推理中的部署能力。此外,多数训练范式常导 致视觉-语言backbone模型的感知表征退化,引发过拟合并削弱对下游任务的泛化能力。 论文名称: Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment 论文链接: https://arxiv.org/abs/2511.04555 来自上海交大、CMU、剑桥大学的团队提出轻量级VLA模型Evo-1,在无需机器人数据预训练的前提下,既降低计算成本又提升部署效率,同时保持 强劲性能。Evo-1基于原生多模态视觉语言模型(VLM),融合创新的交叉调制扩散变换器与优化集成模块,构建高效架构。这里还进一步引入两阶段 训练范式,通过逐步协调动作与感知,完整保留VLM的表征能力。 编辑丨具身智能之心 ...