Workflow
对抗性策略优化(APO)
icon
Search documents
GRPO并非最优解?EvaDrive:全新RL算法APO,类人端到端更进一步(新加坡国立)
自动驾驶之心· 2025-08-14 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 新加坡国立、清华和小米等团队最新的工作 - EvaDrive ! 全新强化学习算法APO,开闭环新SOTA。如 果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Siwen Jiao等 编辑 | 自动驾驶之心 最近很多端到端方向的工作!今天自动驾驶之心为大家分享新加坡国立、清华和小米等团队最新的工作 - EvaDrive。这篇工作认为: 为了解决这些问题,EvaDrive应运而生 - 一个全新的多目标强化学习框架,通过对抗性优化在轨迹生成和评测之间建立真正的闭环协同进化。EvaDrive将轨迹规划 表述为多轮对抗游戏。在这个游戏中,分层生成器通过结合自回归意图建模以捕捉时间因果关系和基于扩散的优化以提供空间灵活性,持续提出候选路径。然 后,一个可训练的多目标critic对这些proposal进行严格评测,明确保留多样化的偏好结构,而不将其压缩 ...