领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心·2025-12-19 00:05

点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Vision-Language-Action(VLA)模型通过融合视觉、语言与动作,为机器人带来了强大的零样本与跨任务泛化能力。但仅依赖模仿学习的 VLA 在真实世界 OOD 场 景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。 强化学习(RL)正成为连接 VLA 预训练与真实部署的关键桥梁。 由南洋理工大学、北京邮电大学、清华大学联合推出, 本综述系统梳理了 RL-VLA 在"学习—优化—部署"全生命周期中的核心方法与挑战,并从四个维度构建了 完整技术图景:架构、训练范式、真实世界部署以及评估。 一、RL-VLA 架构:从开环推理到闭环优化 RL 通过奖励驱动的策略更新,使 VLA 从"复现示范"转向"结果导向"的闭环决策: 动作建模 A 论文链接(每月更新) :https://doi.org/10.362 ...