Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
雷峰网·2025-05-29 11:44
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构和训练方法的技术报告 [1] ,进一步披露了这个模型的细节。 训练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾 NPU 上 实现了 准万亿 MoE 模 型的全流程训练。 盘古团队 提出 Depth-Scaled Sandwich-Norm ( DSSN ) 稳定架构 和 TinyInit 小初始化 的 方法, 在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练 。 此外,他们 还 提出了 EP loss 负载优化 方法 , 这一设计不仅保证了 各个专家之间的能保持较好的负载 均衡, 也 提升了专家的 领域 特化能 力。 同时, Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练 策略。 " 对硬件特性的深度挖掘和算法创新,是华为引领AI技术的硬实 力。 " 作者丨 ...