强化学习真的很适用于自动驾驶吗？

作者 | XiuQ 编辑 | 自动驾驶之心点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 ★ 前段时间阅读到这篇论文，利用强化学习，self-play 方式，不使用任何真实数据， zero-shot 在CARLA, nuPlan, waymax 上达到的SOTA. 论文结果很amazing，并且给出了较为详细的细节，本文是笔者的阅读笔记，以供后期回顾，也供大家参考，若有纰漏，欢迎友好指正，也欢迎大家一起交流学习。笔记将主要抽取总结论文关键脉络，更多细节十分推荐阅读原文。强化学习回顾原文链接： https://www.zhihu.com/question/547768388/answer/114467872460 RL 交互流程强化学习的主要框架如上图所示，强化学习的任务是寻找一个使agent 在与环境交互过程中的累计回报期望最大。强化学习的几个核心点是对于自动驾驶而言，将强化学习用在自动驾驶，环境演化和Reward设计可能相对较难。主要 ...