Workflow
闭环仿真测试
icon
Search documents
英伟达又一新作!MPA:基于模型的闭环端到端自适应策略新框架(CMU&斯坦福等)
自动驾驶之心· 2025-12-01 00:04
>>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Haohong Lin等 编辑 | 自动驾驶之心 英伟达最近工作很多啊,而且做的都挺扎实。 前一段时间的自驾VLA框架 - Alpamayo-R1,昨天新的一篇闭环仿真测试框架 - MPA。 可圈可点,今天自动驾驶之心 为大家分享的就是这篇新工作MPA。 自动驾驶中的开环评测已经相对完善,但在闭环评测中仍然面临着级联误差和泛化能力不足的问题。针对这个问题,CMU、斯坦福和英伟达的团队提出一种基于模型 的策略自适应通用框架 - Model-based Policy Adaptation。旨在提升预训练E2E驾驶智能体在部署阶段的鲁棒性与安全性。MPA首先利用几何一致的仿真引擎生成多样化 反事实轨迹,让智能体接触到原始数据集之外的场景;基于生成的数据,MPA训练一个基于扩散模型的策略适配器以优化基础策略的预测结果,并训练一个多步Q值 模型来评估长期收益。推理阶段,适配器生成多个轨迹候选,Q值模型则选择期望效用最高的轨迹。在nuScenes基准数据集上,通过重建出的真实闭环仿真器的实验 表明,MPA在域内场景、域外场景及安全关键场景中均显著提升了性能 ...