RoboTracer
Search documents
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
机器之心· 2025-12-30 12:10
本文的主要作者来自北京航空航天大学、北京大学、北京智源人工智能研究院和中科院自动化研究所。本 文的第一作者为北京航空航天大学博士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一 作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学教授盛律和北京大 学计算机学院研究员、助理教授仉尚航。 我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任 务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三 维物理世界中「看懂并做好」变得更难。 想象一下你下班回到家,对家用服务机器人说: 「按从左到右的顺序给每盆花浇水;喷壶要在每朵花上方 1–5 厘米处停住再浇,这样更均匀。」(如下图) 对人来说这很自然,但对机器人来说,难点不在「浇水」本身,而在指令里隐含了大量空间约束:既有 定 性 的(从左到右、在上方),也有 定量 的(1–5 厘米)。在杂乱的开放世界场景中,让机器人稳定遵循这 些约束,哪怕对目前最先进的视觉 - 语言 - 动作模型(VLA)也依然是挑战。 一个直接的突破口是:让视觉 - 语言模型(VLM)生 ...