Workflow
机器人导航的2个模块:视觉语言导航和目标导航有什么区别?
具身智能之心·2025-07-02 10:18

点击下方 卡片 ,关注" 具身智能 之心 "公众号 说到机器人导航,技术路线已经逐渐从早期传统的建图定位导航,到后期基于大模型方案的导航演变。而 基于大模型方案的导航又分为视觉语言导航和目标导航! 如果说一句话说明这两个任务的区别,视觉语言导航是""听懂指令走对路",目标导航是""看懂世界自己找 路"。 视觉语言导航是什么? 视觉语言导航本质上是个指令跟随的任务。任务囊括了三个方面,理解语⾔指令、感知周围环境,规划运 动策略。一般来说,VLN机器人系统主要由视觉语言编码器,环境历史信息表征,以及动作策略三个模块 构成。 机器人从环境中获取语⾔指令和每⼀步的视觉观测,首先需要同时视觉语⾔编码器从中压缩出有效信息。 采用怎样的编码器,视觉和语言的表征是否应该投影到⼀个共同的表征空间,是否应该首先对语言指令在 指令级别的拆分然后在压缩是其中的关键问题。这其中,采用在大规模数据集上预训练的视觉语⾔模型, 利用LLM做指令拆解和任务拆分是目前主流且前沿的范式。 VLN机器⼈需要逐步获得视觉观测,执行动作,获得新的观测,以此循环,这天然是⼀个序列决策的任 务。那么如何累积历史上获得的信息,判断当前执行到任务的哪个阶段,为 ...