视觉–语言–动作(VLA)模型
Search documents
首个长程「VLA-World Model」一体化模型!ManualVLA解锁长程精细操作任务
具身智能之心· 2025-12-23 03:34
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难 以兼顾高层规划与精细操控。 针对这一问题, 北京大学、香港中文大学与至简动力 团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联 方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。 首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信 息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同 ...
北大发布 ManualVLA:首个长程「生成–理解–动作」一体化模型,实现从最终状态自主生成说明书并完成操纵
机器之心· 2025-12-18 09:08
视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难 以兼顾高层规划与精细操控。 针对这一问题, 北京大学、香港中文大学与至简动力 团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。 首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信 息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同时,通过潜在表征为动作生成提供持续的隐式引导,实现理解与生成的高度统一。 论文题目 :ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation 论文链接 : https://arxiv.org/abs/2512.02013 项目主页 : https://sites.google.com/view/maunalvla 实验结果表明,ManualVLA 在现实场景任务中表现出显著优势,其平均成功率相较 ...