Workflow
具身智能导航
icon
Search documents
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 00:33
VLN-R1团队 投稿 量子位 | 公众号 QbitAI 你对着家里的机器人说:"去厨房,看看冰箱里还有没有牛奶。" 它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:"还有半瓶。" 这不是遥远的科幻,而是视觉语言导航技术的下一站。 由香港大学与上海AI Lab联合提出的 VLN-R1 ,具备将自然语言指令直接转化为第一人称视角下的连续导 航动作的能力,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导 航。 在VLN-CE基准测试中,VLN-R1展现出了很强性能,仅用Qwen2-VL-2B模型(20亿参数),通过RFT训练 后就超越了7B模型的SFT结果。 更具挑战性的长距离导航中,VLN-R1实现了"跨域迁移"——在R2R上预训练后,仅用1万RxR样本进行 RFT,性能就超过了使用完整RxR数据训练的模型,彰显出极强的数据效率。 VLN-R1:让LVLM采用类Deepseek-R1范式成为具身导航会思考的"大脑" 视觉语言导航(VLN)是具身人工智能领域的核心挑战之一。其核心要求是:让智能体能够基于自然语言指 令(如"走到客厅的沙发旁"),在现实环境中自主 ...