MindDrive
Search documents
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Haoyu Fu等 编辑 | 自动驾驶之心 华科&小米的一篇新工作MindDrive,提出了一种基于在线强化学习的VLA框架。 相比RecogDrive、ORION提升了不少,在Qwen2-0.5B的基座上效果挺不错的。 当前自动驾驶领域VLA的相关工作主要依赖模仿学习,这会带来分布偏移和因果混淆等固有挑战。在线强化学习通过试错学习为解决这些问题提供了一条极具潜力的 途径。然而,将在线强化学习应用于自动驾驶视觉-语言-动作模型时,面临着连续动作空间中探索效率低下的难题。为克服这一限制, 华科和小米的团队提出了 MindDrive——一种包含大语言模型(LLM)的视觉-语言-动作框架,该模型配备两组不同的LoRA参数。 其中一组大语言模型充当决策专家,负责场景推理和驾驶 决策;另一组则作为动作专家,将语言决策动态映射为可行驶轨迹。通过将轨迹级奖励反馈至推理空间,MindDrive能够在有限的离散语言驾驶决策集合上进行试错 学习,而非直接在连续动作 ...