Workflow
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
量子位·2025-11-27 04:34

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI u1s1,现在模型能力是Plus了,但Rollout阶段的速度却越来越慢…… 于是月之暗面出手了: 爆改RL训练速度,让LLM"越跑越快"! 最近月之暗面联合清华大学提出了全新的加速引擎 Seer ,能够在不改变核心训练算法的前提下,大幅度提升LLM的强化学习训练速度。 依托组内上下文设计,可实现同步RL的Rollout效率提升 74%~97% ,长尾延迟减少 75%~93% 。 好好好,几乎是模型换代式的效率提升。 下面来康康详细内容。 跑得更快、更省资源 强化学习目前已成为推动LLM发展的核心技术,但现有系统面临着严重的性能瓶颈。 具体来说,就是在端到端迭代过程中,生成阶段 (rollout phase) 会耗费大量的时间资源,然而该阶段受固有工作负载不均衡的影响,存在 明显的长尾延迟问题,且资源利用率较低。 因此研究团队针对性推出了高效同步RL框架 Seer 。 其核心架构包括三大模块: 1、 推理引擎池 (Inference Engine Pool) 基于DRAM/SSD构建,包括多个推理实例与跨节点的 全局KVCache池 ,不仅可以支持负载均衡 ...