Workflow
Reward World Model (RWM)
icon
Search documents
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-12 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 清华&博世等团队 最新的工作! IRL-VLA:基于逆向强化学习奖励世界模型的视觉-语言-动作策略闭 环训练框架! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Anqing Jiang等 编辑 | 自动驾驶之心 自动驾驶VLA深入行业视野以来,一直面临两个关键的问题: 1. 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制; 总结来说,有三个亮点: | 提出了一种基于逆向强化学习的高效奖励世界模型(RWM); | | --- | | 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能 | | 在CVPR2025挑战赛的NAVSIM v2取得了第二的成绩。 | | 非常不错的工作,后续自动驾驶之心也会持续跟踪~ | | 论文链接:https://arx ...