强化学习 (RL)
Search documents
复刻pi0.6很难?SRPO:无需微调 Value Model,VLA-RL 也能刷新 SOTA
具身智能之心· 2025-12-05 00:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Senyu Fei等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 1 写在前面 在具身智能领域,强化学习 (RL) 正成为继有监督微调 (SFT) 之后提升视觉-语言-动作 (VLA) 模型表现的关键。最近 Physical Intelligence 发布的 利用 RECAP 框架证明了这一路径的潜力。然而,构建高质量的奖励或价值模型通常代价高昂。 图 1: 与 SRPO 价值函数曲线。图中三个场景取自 官方主页,白色曲线代表 的价值函数,而黄色曲线代表 SRPO 方法未经任务微调直接得到的价值 函数。在 中,该价值函数预测的是完成任务所需的负向步骤数,当机器人取得进展时,预测值会上升,而当进展甚微时,预测值则保持平稳;在SRPO 中则 直接预测任务的进展。 近期,OpenMOSS 团队与 SiiRL 团队联合带来最新工作 SRPO (Self-Referential Policy ...