Workflow
RhymeRL
icon
Search documents
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 08:06
强化学习的训练效率,实在是太低了! 随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型"深度思考"能力的背后,强化学习 (RL) 无疑是那把最关键的密钥。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的"手工作坊", 投入巨大但产出缓慢 。 其中,占据超过80%时间的Rollout (响应生成) 阶段,由于其内存带宽限制和自回归特性,成为了整个AI基础设施中公认的阿喀琉斯之 踵。 如何攻克这块AI基建的最后高地?现在,上海交通大学与字节跳动研究团队给出了一个全新的答案。 该团队联手推出的 RhymeRL ,从一个被忽视的现象入手,巧妙地将历史数据变废为宝,在不牺牲精度的前提下, 将RL训练吞吐量提升了 2.6倍 。 模型生成的答案存在两大"历史相似性" 该研究团队深入分析了大量RL训练过程,发现在相邻的两个训练周期中,尽管模型权重已经更新,但对于同一个问题 (Prompt) ,模型生 成的答案 (Rollout) 存在两大"历史相似性": 第一,序列相似性 。 新答案" ...