Pangu Ultra MoE 718B模型

Search documents
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 11:01
最近,华为在MoE训练系统方面,给出了MoE训练算子和内存优化新方案:三大核心算子全面 提速,系统吞吐再提20%,Selective R/S实现内存节省70%。 在通往更强大的 AI 路上, MoE 已成为科技巨头另一个首选路径。 只要 Scaling Law 没有失效,大模型的参数规模依旧不断扩大,由此 AI 智能水平才能不断攀升。 凭借独特的架构设计, MoE 正以前所未有的参数规模,成为突破大规模模型训练的算力瓶颈的关键 路径之一。 然而,如何将 MoE 潜力真正转化为高效的训练实践,一直是业界探索的难题。 此前,华为曾通过 Adaptive Pipe&EDPB 框架,实现了集群级高效分布式计算,让通信和计算能完 美并行,提高训练集群效率。 本次,华为通过昇腾与鲲鹏算力的深度协同,进一步实现了训练算子计算效率和内存利用率大幅提 升。 他们从单节点视角出发,深入到NPU和CPU内部,对算子计算、下发、训练内存使用等进行细粒 度拆解。 令人惊喜的是,结果显示, MOE 训练在之前的基础上,吞吐又提升了 20% ,内存占用降低了 70% 。 首先,硬件核心计算单元,如 Cube 利用率不足,存在冗余操作和可优 ...
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 13:05
随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要 方向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模 型参数的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境 下进行训练时,训练效率不足,已成为亟待解决的难题。 实践 表明, MoE模型训练集群的效率面临两方面挑战:(1) 专家并行引入计算和通信等待 , 当 模型规模较大时,需要切分专家到不同设备形成并行( EP),这就引入额外 All-to-All 通信,同时 MoE层绝大部分EP通信与计算存在时序依赖关系, 一般的 串行执行模式 会 导致大量计算单元空闲 , 等待 通信;( 2) 负 载不均引入计算和计算等待 , MoE算法核心是"有能者居之",在训练过 程中会出现 部分热专家被频繁调用,而冷专家使用率较低 ;同时,真实训练数据的长度不一,不同 的模型层(如稀疏层、嵌入层等)的计算量也存在明显差异,造成不同卡之间计算也在互相等待。 形象地说, MoE训练系统就像一个交通拥塞严重的城区:1)人车混行阻塞,所有车辆(计算)必须 等待行人(通 ...
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 07:17
" 一半以上训练时间都浪费在了 「 等待 」 。 " 作者丨李希 随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方 向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数 的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境下进行训练 时,训练效率不足,已成为亟待解决的难题。 01 MoE大规模训练难题:一半以上的训练时间在等待? 华为构建了名为 AutoDeploy 的 仿真平台 ,它是一个 基于昇腾硬件训练系统的 "数字孪生"平台,通过 计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术, 能在 1 小时 内模拟 百万次训练场景 , 实现 MoE模型多样化训练负载的快速分析 和自动找到与 集群硬件规格 匹配的最优策略选择。在训练实践验证中,该建模框架可达到 90%精度指标 ,实现低成本且高效的最优 并行选择。 针对 Pangu Ultra MoE 718B 模型,在单卡内存使用约束下,华为通过 AutoDeploy 以训练性能为目标 找到了 TP8/ ...
训练MoE足足提速70%!华为只用了3招
量子位· 2025-06-03 06:21
训练效率不足 ,甚至 一半以上训练时间都浪费在"等待"上 。 现在,为了突破MoE的训练瓶颈,华为出手了: 构建了一套名为 Adaptive Pipe & EDPB 的优化方案,开启"上帝视角",让MoE面临"交通拥堵"的训练集群, 实现无等待流畅运行。 MoE大规模训练难题:一半以上的训练时间在等待? 实践已经表明,MoE模型训练集群的效率面临两方面挑战: 首先,是 专家并行引入了计算和通信等待 。 允中 发自 凹非寺 量子位 | 公众号 QbitAI Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。 不过,在高效实现模型参数规模化的同时,MoE的 训练难题 也日益凸显: 当模型规模较大时,需要切分专家到不同设备形成并行(EP),这就引入额外All-to-All通信。 与此同时,MoE层绝大部分EP通信与计算存在时序依赖关系,一般的串行执行模式会导致大量计算单元空闲, 等待通信。 其次, 负载不均会引入计算和计算等待 。 MoE算法核心是"有能者居之",在训练过程中会出现部分热专家被频繁调用,而冷专家使用率较低的情况。 同时,真实训练数据的长度不一,不同的模型层 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 09:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...