Workflow
Vision-Language Navigation
icon
Search documents
VLFly:基于开放词汇目标理解的无人机视觉语言导航
具身智能之心· 2025-07-20 01:06
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 主要贡献 研究背景 视觉语言导航的重要性 : 使机器人能够根据自然语言指令执行复杂任务,是机器人学和人工智能领域的一个重要目标,尤其在家庭协助、城市检查和环境探索等自主导航场景中具有广泛 的应用前景。 现有研究的局限性 : 研究方法 问题定义 任务定义 :将无人机的视觉语言导航(VLN)任务定义为一个部分可观测马尔可夫决策过程(POMDP),由状态空间 、动作空间 、观测空间 和状态转移概 率 组成。 状态和动作 :在每个时间步 ,无人机接收自然语言指令 、目标图像 和自身视角观测 。动作 是一个连续控制空间 中的线性和角速度命令。 整体框架 框架组成 :VLFly框架由三个模块组成: 作者:Yuhang Zhang, Haosheng Yu, Jiaping Xiao, Mir Feroskhan 单位:南洋理工大学 论文标题:Grounded Vision- ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on Vision-Language-Action Models for Autonomous Driving.2025 论文链接:https://arxiv.org/pdf/2506.24044 Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes.2025 论文链接:https://www.arxiv.org/abs/2408.03539 A Survey on Diffusion Policy for Robotic Manipulation: Taxonomy, Analysis, and ...