自动驾驶VLA再升级！博世IRL-VLA：打造全新闭环强化学习框架

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线今天自动驾驶之心为大家分享清华&博世等团队最新的工作！ IRL-VLA：基于逆向强化学习奖励世界模型的视觉-语言-动作策略闭环训练框架！如果您有相关工作需要分享，请在文末联系我们！自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Anqing Jiang等编辑 | 自动驾驶之心自动驾驶VLA深入行业视野以来，一直面临两个关键的问题： 1. 现有的VLA架构通常基于开环设置中的模仿学习，倾向于捕捉数据集中的记录行为，性能在一定程度上收到了限制； 2. 闭环训练严重依赖高保真的传感器仿真，但仿真环境和真实环境的domain gap和计算效率的问题阻碍了VLA的泛化。针对这两个问题，博世、上海大学、上交和清华AIR的团队提出了IRL-VLA，一个全新的闭环强化学习方法，通过逆向强化学习奖励世界模型结合设计的VLA方法。IRL- VLA采用三阶段范式：在第一阶段，提出了一种VLA架构，并通过模仿学习对VL ...