Workflow
RL Fusion训推共卡技术
icon
Search documents
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 14:24
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.11 :RL后训练 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核 ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道· 2025-06-05 11:03
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次, 华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资 源利用率翻倍,还打破了同步算法限制,让训练速度再提升50%。 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的Op e nAI o 1、De e pSe e k -R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交 互,直接塑造了 LLM 在复杂任务中的推理效能。 当前, RL后训练阶段已经吃掉了训练全流程2 0%的算力,未来会飙升到5 0%,直接影响模 型的性能和成本。 在传统RL后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出 「RL Fusi on训推共卡」 和 「St a l eSync 准异步并行」 两大黑科技, 把训练效率和资源利用率拉满。 · RL Fu si o n:让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻倍。 · St a l eSy ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网· 2025-06-05 09:17
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出 两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了 同步算法限制,让训练速度再提升50%。 作者丨李希 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破 LLM 性能天花板的核心路径。 爆火出圈的 OpenAI o1 、 DeepSeek-R1 等模型,背后都是依靠 RL 后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取, RL 后训练通过驱动模型与外部环境进行动态交互,直接塑 造了 LLM 在复杂任务中的推理效能。 当前, RL 后训练阶段已经吃掉了训练全流程 20% 的算力,未来会飙升到 50% ,直接影响模型的性能和 成本 。 在传统 RL 后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出「 RL Fusion 训推共卡 」和「 StaleSync 准异步并行 」两大黑科技,把训练效率和 资源利用率拉满。 · RL Fusion : 让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻 倍。 · S ...