理想分享自动驾驶强化学习闭环训练框架
自动驾驶领域,开环是基于离线数据的静态回放,算法决策与环境状态解耦,无法改变既定历史;闭 环则是在动态仿真中,车辆的每一次操作都会与环境产生交互,并实时改变后续的时空轨迹。 现有的世界模型输入一个明显不安全的一系列动作(例如冲向行人或驶出路面)时,模型为了维持生 成的连贯性,往往会产生幻觉,它会让行人凭空消失,或者让草地瞬间变成柏油路,从而强行生成一 个安全的未来。 2025年11月25日理想发布AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models 这篇论文核心解决的问题是: 如何通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性,特别是 解决现有世界模型无法正确预测危险后果的系统性缺陷。 鲁棒性指系统在面对输入扰动、参数不确定性或环境变化时,仍能维持性能稳定的能力。在自动驾驶 领域,指不仅要在设计运行域(ODD)内的标准场景中表现优异,也要在未知的、极端复杂的长尾 场景中保持决策的安全性和可靠性。 模仿学习核心两个问题: 1.分布偏移现实世界中充满了训练数 ...