Workflow
具身目标导航是怎么找到目标并导航的?
具身智能之心·2025-07-13 04:13

说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 点击下方 卡片 ,关注" 具身智能 之心 "公众号 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂 世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指令时,机器人需自主完成语义解析(识别厨房空间 特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠 物),这背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 商业落地与需求怎么样? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语 ...