盘古Pro MoE大模型

Search documents
华为盘古团队声明:严格遵循开源要求
Guan Cha Zhe Wang· 2025-07-05 09:32
华为近期发布的盘古Pro MoE大模型,通过动态激活专家网络的创新设计,实现了以小打大的优异性 能。然而,近日一项发布于GitHub的研究引发业界关注,该研究的作者认为,华为推出的盘古大模型 (Pangu Pro MoE)与阿里巴巴发布的通义千问Qwen-2.5 14B模型在参数结构上存在"惊人一致"。 盘古Pro MoE开源模型部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源 代码。我们严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声明。这不仅是开 源社区的通行做法,也符合业界倡导的开源协作精神。我们始终坚持开放创新,尊重第三方知识产权, 同时提倡包容、公平、开放、团结和可持续的开源理念。 声明指出,盘古Pro MoE开源模型部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型 的部分开源代码。"我们严格遵循开源许可证的要求,在开源代码文件中清晰标注开源代码的版权声 明。这不仅是开源社区的通行做法,也符合业界倡导的开源协作精神。我们始终坚持开放创新,尊重第 三方知识产权,同时提倡包容、公平、开放、团结和可持续的开源理念。" 以下是华为盘古团队声明原文: 我们注 ...
华为,重大发布!
新华网财经· 2025-06-20 12:17
值得一提的是,5月30日,证券时报·券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重 磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练 的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细 节,充分体现了昇腾在超大规模MoE训练性能上的跨越。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一 难题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE模型的全流程训练。 "一年以来,盘古大模型深入行业解难题,在30多个行业、500多个场景中落地。"6月20日下午,在华为 开发者大会2025上,华为常务董事、华为云计算CEO张平安分享了盘古大模型在工业、农业、科研等领 域的丰富创新应用和落地实践,并重磅发布盘古大模型5.5,在自然语言处理、多模态等5大基础模型全 面升级,加速重塑千行万业。 会上,华为云还发布了盘古医学、金融、政务、工业、汽车五个具备深度思考能力的行业自然语言大模 型,加速行业智能化,并将在6月底正式上 ...
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 10:55
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 "以非摩尔补摩尔、以集群补单芯片" 在讨论华为如何短时间内实现赶超的问题前,我们需要先明确一个问题:"384超节点"算是华 为在制裁下的无奈之举吗? 不完全是。 除了制裁下寻求破局这个角度,华为打造"超节点"这 ...
华为揭秘:国产昇腾训出世界一流大模型
Guan Cha Zhe Wang· 2025-05-30 08:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 00:57
当前,混合专家模型( Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开 销换取更大能力成为可能。然而,传统MoE普遍存在专家激活频次高度不均衡现象,当专家并行部署 于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型( Mixture of Grouped Experts, MoGE) ,通过在专 家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K昇腾大规模集群 进行高效训 练。 同时,基于 MoGE架构构建的 盘古 Pro MoE大模型(72B总参数、16B激活参数) 在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率(321 tokens/s和1528 tokens/s)。 在模型能力方面,盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成 绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1具有671B参数)相比,盘古Pro MoE 以72B总参数量达到了59分,千亿参数量以内大模型排行并列国内第一。并且,16B激活参数量 ...
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 13:36
在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP· 2025-05-28 13:34
近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.6 :MoGE架构 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近日,华为盘古团队提出了分组混合专家模型(Mixture of Group ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 08:09
机器之心发布 机器之心编辑部 当前,混合专家模型(Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开销换取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频 次高度不均衡现象,当专家并行部署于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE) ,通过在专家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功 在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 针对这一行业难题,华为盘古团队(以下简称团队)推出 全新盘古 Pro MoE 大模型 。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek- ...