Workflow
空间指代
icon
Search documents
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
机器之心· 2025-07-06 06:06
本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智 能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学副教授盛律和北京大学计算机学院研 究员、助理教授仉尚航。 机器人走出实验室、进入真实世界真正可用,远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变,远不像实验室那样干净、单一、可 控。 想象一下,你正在餐厅吃饭,身边有个服务机器人。你对它说: 「 把第二列最远的黄色寿司盘,放到离我最近的寿司和酱油碟之间的空位上。 」 (左图) 又或者,你希望它 「 拿起最左边、饮料 logo 正对的苹果,放到最近的桌子上,并与之前的苹果排成一排、间距一致。 」 (右图) 这些听起来是我们日常再熟悉不过的指令,其实是一个典型 空间指代(Spatial Referring) 任务。简单来说,就是让机器人通过 「 最远 」 「 第二列 」 「 等间距 」 「 正对着」这 类空间关系,搞清楚要抓哪个对象、放在哪里、或者走向哪个位置。 听着简单,做起来却不容易。哪怕是目前最强大、最先 ...