Workflow
Open World Mobile Manipulation
icon
Search documents
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 11:59
在家庭服务机器人领域,如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作,一直是学界和工业界的核心挑战。 近日,上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队,提出了 " OWMM-Agent " 具身智能体——首个专为开放世界移动操作 (OWMM)设计的多模态智能体 (VLM Agent) 架构,首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。 同时该工作通过仿真器合成智能体轨迹数据,微调了针对该任务的多模态大模型 OWMM-VLM,在真实环境测试下,该模型零样本单步动作预测准确率达 90%。 论文链接:https://arxiv.org/pdf/2506.04217 Github 主页:https://github.com/HHYHRHY/OWMM-Agent 一、问题背景介绍:开放语义下的移动抓取任务 传统移动抓取机器人在家庭场景处理 "清理餐桌并将水果放回碗中" 这类开放指令时,往往需要依赖预先构建的场景 3D 重建或者语义地图,不仅耗时且 难以应对动态环境。OWMM 任务的核心难点在于: 二、OWMM-Agent:用 VLM 重构机器人 "大脑 ...