VLN

Search documents
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
自动驾驶之心· 2025-07-11 06:46
论文链接:https://arxiv.org/pdf/2506.24044 项目链接:https://github.com/JohnsonJiang1996/Awesome-VLA4AD Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends.2025 论文链接:https://arxiv.org/pdf/2506.20966 项目链接:https://github.com/AoqunJin/Awesome-VLA-Post-Training 今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on ...
从近30篇具身综述中!看领域发展兴衰(VLA/VLN/强化学习/Diffusion Policy等方向)
具身智能之心· 2025-07-11 00:57
今天为大家整理了几十篇具身相关的综述,设计数据集、评测、VLA、VLN、强化学习、基础模 型、DP等方向,为大家一览具身发展的路线, 内容出自具身智能之心知识星球。 A Survey on Vision-Language-Action Models: An Action Tokenization Perspective.2025 论文链接:https://arxiv.org/pdf/2507.01925 A Survey on Vision-Language-Action Models for Autonomous Driving.2025 论文链接:https://arxiv.org/pdf/2506.24044 Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes.2025 论文链接:https://www.arxiv.org/abs/2408.03539 A Survey on Diffusion Policy for Robotic Manipulation: Taxonomy, Analysis, and ...
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 12:54
算法框架: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 强化学习如何提升VLA泛化能力 清华大学、上海期智研究院、北京中关村科学院通过强化学习微调(PPO算法)显著提升视觉-语言-动作模 型(VLA)的泛化能力: 1)执行任务成功率提升42.6%(OOD场景) 2)语义理解任务成功率从61.5%提升至75.0%(未见物体) 3)动态干扰场景成功率从28.6%跃升至74.5%(Tab 3) 主要贡献: 论文标题:What Can RL Bring to VLA Generalization? An Empirical Study 论文链接:https://arxiv.org/pdf/2505.19789 1. 构建了一个严谨且具有挑战性的基准,用于评估 VLA 微调方法在视觉、语义和执行等不同维度上对泛 化能力的影响。 2. 确定 PPO 是优于 GRPO 和 DPO 的 VLA 微调 RL 算法,并讨论了将这些 RL 算法从 LLM/VLM 范式适 配到 VLA 独特需求时的关键挑战。 3. 开发了一种高效的基于 PPO 的 VLA 微调方案,该方案借助共享的 actor-critic 骨干网络、VL ...
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 00:33
VLN-R1团队 投稿 量子位 | 公众号 QbitAI 你对着家里的机器人说:"去厨房,看看冰箱里还有没有牛奶。" 它不仅准确走到了厨房,还在移动过程中避开了椅子,转身打开冰箱,并回答你:"还有半瓶。" 这不是遥远的科幻,而是视觉语言导航技术的下一站。 由香港大学与上海AI Lab联合提出的 VLN-R1 ,具备将自然语言指令直接转化为第一人称视角下的连续导 航动作的能力,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导 航。 在VLN-CE基准测试中,VLN-R1展现出了很强性能,仅用Qwen2-VL-2B模型(20亿参数),通过RFT训练 后就超越了7B模型的SFT结果。 更具挑战性的长距离导航中,VLN-R1实现了"跨域迁移"——在R2R上预训练后,仅用1万RxR样本进行 RFT,性能就超过了使用完整RxR数据训练的模型,彰显出极强的数据效率。 VLN-R1:让LVLM采用类Deepseek-R1范式成为具身导航会思考的"大脑" 视觉语言导航(VLN)是具身人工智能领域的核心挑战之一。其核心要求是:让智能体能够基于自然语言指 令(如"走到客厅的沙发旁"),在现实环境中自主 ...