上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心·2025-12-02 09:30

点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人操作领域,"通用性" 与 "高效性" 的平衡始终是核心挑战——现有方案要么缺乏动态建模能力,难以应对复杂环境交互;要么推理速度慢,无法满足实时 控制需求。 上海 AI 实验室、上海交通大学等团队联合提出的 MM-ACT ,以 "统一多模态表征 + 并行解码架构" 为核心,创新引入 "上下文共享多模态学习" 范式,实现了文 本、图像、动作的协同生成,既具备精准的语义理解与环境预测能力,又能高效输出执行动作,在模拟与真实场景中均展现出超越现有方案的综合性能。 为什么需要重构视觉 - 语言 - 动作(VLA)模型架构? 当前 VLA 模型陷入 "三重矛盾":语义理解与动态建模难以兼顾、多模态生成效率低下、训练目标存在错位,核心问题可归结为 "无法在统一框架内实现'感知 - 规 划 - 执行'的高效协同": | 方案类型 | 代表思路 | | 核 ...