Workflow
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶之心·2025-09-09 23:33

点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 清华&博世等团队 最新的工作! IRL-VLA:基于逆向强化学习奖励世界模型的视觉-语言-动作策略闭环训练框 架! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Anqing Jiang等 编辑 | 自动驾驶之心 自动驾驶VLA深入行业视野以来,一直面临两个关键的问题: 1. 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制; 2. 闭环训练严重依赖高保真的传感器仿真,但仿真环境和真实环境的domain gap和计算效率的问题阻碍了VLA的泛化。 针对这两个问题,博世、上海大学、上交和清华AIR的团队提出了IRL-VLA,一个全新的闭环强化学习方法,通过逆向强化学习奖励世界模型结合设计的VLA方法。IRL- VLA采用三阶段范式:在第一阶段,提出了一种VLA架构,并通过模仿学习对VL ...