北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心·2025-12-18 09:08

视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难 以兼顾高层规划与精细操控。 针对这一问题, 北京大学、香港中文大学与至简动力 团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信 息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同时,通过潜在表征为动作生成提供持续的隐式引导,实现理解与生成的高度统一。 论文题目 :ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation 论文链接 : https://arxiv.org/abs/2512.02013 项目主页 : https://sites.google.com/view/maunalvla 实验结果表明,ManualVLA 在现实场景任务中表现出显著优势,其平均成功率相较 ...