李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心·2026-01-21 09:16
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Hongchen Li等 编辑 | 自动驾驶之心 同济、上海创智学院、港大OpenDriveLab等团队的工作。基于闭环强化学习和高效微调的Diffusion Planner - PlannerRFT。提炼几个关键点: 基于扩散模型的规划器已成为自动驾驶中生成类人轨迹的一种极具潜力的方法。近期研究通过生成-评估循环中的奖励导向优化,将强化微调融入扩散规划器以提升其 鲁棒性。然而,这些方法难以生成多模态、场景自适应的轨迹,阻碍了微调过程中信息性奖励的利用效率。 为解决这一问题,港大OpenDriveLab联合同济大学等研究团队提出PlannerRFT——一种适用于基于扩散模型规划器的样本高效强化微调框架。PlannerRFT采用双分支 优化策略,在不改变原始推理流程的前提下,同时优化轨迹分布并自适应引导去噪过程朝向更具潜力的探索方向。为支持大规模并行学习,本文开发了nuMax仿真 器,其轨迹推演速度较原生nuPlan快10倍。大量实验表明,Pla ...