以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用
自动驾驶之心·2026-01-20 09:03
作者 | TryMyBest 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1993677650724672914 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 引言 近年来大模型的快速发展将强化学习推向了从未有过的热度,成为了post-training不可缺少的一部分。在自动驾驶领域进入到E2E阶段后(直接学习人类司机轨 迹,放弃传统感知->预测->规控),也迫切需要使用强化学习来解决很多模仿学习无法解决的问题。最直接的比如 居中问题 ,人类司机开车不会太关注自己是否 居中,天然的模型也无法从这样的人类轨迹中掌握居中驾驶行为,而强化学习正是解决这种问题的一把钥匙。 理解自动驾驶中的强化学习算法 PPO和GRPO是目前最主流的做法,本文也会直接从这两个算法切入,但其实从强化学习这个概念,最天然的想法是怎么直接利用Reward优化,有很多经典算法 值得学习。很推荐大家阅读这篇文章 Proximal Policy Opti ...