VLFly

Search documents
VLFly:基于开放词汇目标理解的无人机视觉语言导航
具身智能之心· 2025-07-20 01:06
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 主要贡献 研究背景 视觉语言导航的重要性 : 使机器人能够根据自然语言指令执行复杂任务,是机器人学和人工智能领域的一个重要目标,尤其在家庭协助、城市检查和环境探索等自主导航场景中具有广泛 的应用前景。 现有研究的局限性 : 研究方法 问题定义 任务定义 :将无人机的视觉语言导航(VLN)任务定义为一个部分可观测马尔可夫决策过程(POMDP),由状态空间 、动作空间 、观测空间 和状态转移概 率 组成。 状态和动作 :在每个时间步 ,无人机接收自然语言指令 、目标图像 和自身视角观测 。动作 是一个连续控制空间 中的线性和角速度命令。 整体框架 框架组成 :VLFly框架由三个模块组成: 作者:Yuhang Zhang, Haosheng Yu, Jiaping Xiao, Mir Feroskhan 单位:南洋理工大学 论文标题:Grounded Vision- ...