Workflow
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网·2025-06-05 09:17

RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出 两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了 同步算法限制,让训练速度再提升50%。 作者丨李希 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破 LLM 性能天花板的核心路径。 爆火出圈的 OpenAI o1 、 DeepSeek-R1 等模型,背后都是依靠 RL 后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取, RL 后训练通过驱动模型与外部环境进行动态交互,直接塑 造了 LLM 在复杂任务中的推理效能。 当前, RL 后训练阶段已经吃掉了训练全流程 20% 的算力,未来会飙升到 50% ,直接影响模型的性能和 成本 。 在传统 RL 后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出「 RL Fusion 训推共卡 」和「 StaleSync 准异步并行 」两大黑科技,把训练效率和 资源利用率拉满。 · RL Fusion : 让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻 倍。 · S ...