Workflow
FlashRL
icon
Search documents
让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
机器之心· 2025-08-12 09:51
机器之心报道 编辑:冷猫 在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。这是 一个可实现大规模 LLM 强化学习的开源 SOTA 系统,使用该算法,该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分, 我们也做了相关报道 。 中国科学技术大学校友,伊利诺伊大学香槟分校博士,微软研究院的首席研究员 刘 力 源 、清华大学校友,加州大学圣地亚哥分校计算机科学与工程学院博士生 姚峰 团队在强化学习的研究中更进一步。 该团队发现,在 DAPO-32B 中, rollout 生成是强化学习训练的主要瓶颈 ,占据了约 70% 的总训练时间。因此,该团队从 rollout 阶段着手,将 8 bit 量化技术应用 于 rollout 生成,并通过 TIS 技术在保持下游性能的同时实现了显著加速。 众所周知,FP8 能让强化学习运行得更快,但往往以性能下降为代价。 刘力源、姚峰团队推出 FlashRL,是首个开源且可用 ...