Workflow
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
雷峰网·2025-05-28 12:06

" 盘古Pro MoE带领大模型从「参数军备竞赛」转向「实效主 义」。 " 作者丨李希 当前,混合专家模型(Mixture of Experts, MoE )在大型语言模型中的兴起,使得以较小的计算开销换 取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频次高度不均衡现象,当专家并行部署于不同 硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE ) ,通过在专家选 择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩, 实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1 具有 671B 参 ...