Workflow
强化学习真的很适用于自动驾驶吗?
自动驾驶之心·2025-09-08 23:33

作者 | XiuQ 编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 ★ 前段时间阅读到这篇论 文 ,利用强化学习,self-play 方式,不使用任何真实数据, zero-shot 在CARLA, nuPlan, waymax 上达到的SOTA. 论文结果很amazing, 并且给出了较为详细的细节,本文是笔者的阅读笔记,以供后期回顾,也供大家参考, 若有纰漏,欢迎友好指正,也欢迎大家一 起交流学习。 笔记将主要抽取总结论文关键脉络,更多细节十分推荐阅读原文。 强化学习回顾 原文链接: https://www.zhihu.com/question/547768388/answer/114467872460 RL 交互流程 强化学习的主要框架如上图所 示 , 强化学习的任务是寻找一个 使agent 在与环境交互过程中的累计回报期望最大。强化学习的几个核心点是 对于自动驾驶而言, 将强化学习用在自动驾驶,环境演化和Reward设计可能相对较难。主要 ...