上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心·2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zihe Ji等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与优化目标 在自主智能体领域,导航是一项基础且关键的能力,它需要融合空间推理、实时决策以及对动态环境的适 应能力。尽管人类能在复杂环境中轻松导航,但在人工系统中复现这一能力仍面临巨大挑战。传统导航方 法常将问题分解为感知、推理、规划和控制等模块化组件,虽依赖专业算法处理子任务,但存在泛化性 差、可扩展性不足以及实际部署困难等问题,因其严重依赖特定任务的工程设计和僵化的流程。 近年来,视觉语言模型(VLM)的发展为导航领域带来了新的可能,它通过在单一框架内整合感知与推 理,为解决传统方法的弊端提供了新思路。然而,VLM在具身导航中的应用仍受限于空间粒度和上下文推 理能力的不足。基于此,本研究提出了DyNaVLM,这是一种零样本、端到端的导航框架,其核心目标是让 VLM无需微调或接触导航特定数据,就能直接作为导航策略使 ...