Workflow
PPO算法
icon
Search documents
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 00:03
作者 | 浮生梦晓@知乎 转自 | 对比现有的 RL 训练框架! 我一直想找一个社区活跃度比较高,对于环境适配代码相对修改较少的框架,这里直接说,最后选择了 AReaL。 (我的具体业务环境不展开说了,简单来说是需要每个训练样本都有不同的环境状态,除了模型的输出内容去环境里 执行动作以外,还需要框架会话与环境多次交互,这一点就卡死了大部分 RL 框架的 agent loop 控制流,当然除非 做侵入式代码修改,但框架更新后 rebase 又很麻烦) 原文链接: https://zhuanlan.zhihu.com/p/1979237927641949997 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 前 段 时 间 调 研 了 一 些 RL 训 练 框 架 , 目 前 开 源 社 区 的 RL 训 练 框 架 可 以 说 百 花 齐 放 , 老 牌 的 有 openlhf 、 trl 、 unsloth、verl。还有今年新开源的 slime、AReaL、Rlinf、RL2、ROL ...
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心· 2025-11-03 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Kang Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人视觉 - 语言 - 动作(VLA)领域,"大规模强化学习(RL)适配流式模型" 一直是难以跨越的鸿沟 ——现有方案要么受限于监督微调(SFT)的数据集依 赖,面对新任务泛化能力骤降;要么因流式模型迭代去噪过程的 "动作对数似然难计算" 问题,无法将 RL 的环境交互优势融入其中。 而来自清华大学、北京大学、中科院自动化所等团队联合提出的 ,用 "Flow-Noise 与 Flow-SDE 双算法 + 并行仿真训练" 的创新框架,打破了这一僵局:既解决 了流式 VLA 模型的 RL 适配难题,又通过在线交互大幅提升模型性能与泛化性,最终在多任务基准测试中实现 "从 SFT 瓶颈到近满分性能" 的突破。 为什么要重新定义流式 VLA 模型的训练范式? 这些方案都忽略了一个关键:流式 VLA 模型(如 、 )凭借 " ...