对VLA的RL最新进展的梳理~
自动驾驶之心·2025-07-03 12:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...