Workflow
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心·2025-06-04 04:41

机器之心发布 机器之心编辑部 想训练属于自己的高性能推理模型,却被同步强化学习(RL)框架的低效率和高门槛劝退?AReaL 全面升级,更快,更强,更好用! 来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL- boba² (AR eaL v0.3) 。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 " 全面开源、极速训练、深度可定制 " 的开发理 念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL: 异步强化学习(Asynchronous RL)是一种重要的 RL 范式,它将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练,极大提高了资源使用率,天然 适用于多轮次交互的 Agent 场景。 AReaL-boba² 通过 强化学习算法和训练系统的共同设计(co-design) ,在完全不影响模型效果的同时,实现了稳定高效的异步 RL 训练,不断朝全面支持 Agen ...