MotionLM
Search documents
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 00:53
作者 | 小小螺丝钉 编辑 | 自动驾驶之心 举个例子,怎样才能在考试中取得高分?一个比较有效的方法是刷考试真题,多刷几套总结经验。因此,如果能将开环训练换成闭环训练,模拟实车测试的环 境,我相信是更加有效的训练方式。但是 RL 这种闭环训练方法非常依赖仿真环境是否真实,尤其是自动驾驶这样强交互的任务,仿真环境的真实性更加重要,这 也是很多大厂在朝 world model 上发力的原因之一。那如果我们没有一个高保真的仿真环境,那怎么用 RL 呢,这篇文章给我们提供了一个比较好的思路。 本文的网络结构是沿用了 waymo 之前发的一篇论文 MotionLM,如下图所示,是用自回归的方式进行轨迹输出。简单介绍下自回归,在推理阶段每次输出 ego 和 agent 的一个 action,通过 for 循环,输出完整的轨迹。这样做可以确保因果关系一致。由于网络同时会输出 ego 和 agent 的 action,这样就天然构成了一个 simulation,从某种程度上说,这就是一个简易版的 world model。 原文链接: https://zhuanlan.zhihu.com/p/19813730555079079 ...