Workflow
同步RL训练
icon
Search documents
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 00:03
作者 | 浮生梦晓@知乎 转自 | 对比现有的 RL 训练框架! 我一直想找一个社区活跃度比较高,对于环境适配代码相对修改较少的框架,这里直接说,最后选择了 AReaL。 (我的具体业务环境不展开说了,简单来说是需要每个训练样本都有不同的环境状态,除了模型的输出内容去环境里 执行动作以外,还需要框架会话与环境多次交互,这一点就卡死了大部分 RL 框架的 agent loop 控制流,当然除非 做侵入式代码修改,但框架更新后 rebase 又很麻烦) 原文链接: https://zhuanlan.zhihu.com/p/1979237927641949997 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 前 段 时 间 调 研 了 一 些 RL 训 练 框 架 , 目 前 开 源 社 区 的 RL 训 练 框 架 可 以 说 百 花 齐 放 , 老 牌 的 有 openlhf 、 trl 、 unsloth、verl。还有今年新开源的 slime、AReaL、Rlinf、RL2、ROL ...