MoE模型

Search documents
腾讯混元首个开源混合推理MoE模型在魔搭社区首发
news flash· 2025-06-27 09:56
6月27日,腾讯混元开源的首款混合推理MoE模型Hunyuan-A13B在魔搭社区首发。该模型总参数80B, 激活参数仅13B,是业界首个13B级别的MoE开源混合推理模型,效果比肩同等架构领先开源模型。开 发者可以用更低门槛的方式获得领先的模型能力。(全天候科技) ...
华为,重大发布!
证券时报· 2025-06-20 10:40
重大发布。 鸿蒙6是原生鸿蒙的第二个版本,余承东介绍,鸿蒙6将带来全新的互联和智能体验,全场景体验更易用,时 延更低;鸿蒙智能再进化,AI能力更开放。同时,HMAF鸿蒙智能体框架赋能鸿蒙应用和元服务智能化升级, 让人机交互更自然、强大、高效和协同。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型 的全流程训练。 在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法, 在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了EP loss负载优化方法,这一设计不 仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用 了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架 构在模型效果与效率之间的最佳平衡。 在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节 ...
2025H2新型硬件展望:从科技树节点,看新型硬件
Shenwan Hongyuan Securities· 2025-06-09 07:39
证券分析师:杨海晏 A0230518070003 李国盛 A0230521080003 袁航 A0230521100002 李天奇 A0230522080001 刘菁菁 A0230522080003 黄忠煌 A0230519110001 林起贤 A0230519060002 刘洋 A0230513050006 研究支持: 陈俊兆 A0230124100001 联系人: 刘洋 A0230513050006 2025.6.9 结论 从科技树节点,看新型硬件 2025H2 新型硬件展望 证 券 研 究 报 告 • 串联2022H2、 2024年底、2025H2 科技创新的进展与前景,投资者可以感受到进展; • 前述"硬件-软件"创新轴,会指引投资方向。中短期需要讨论的机会:GPU+HPM、光器件、硅光、激光雷达、车载芯片、RoboVan、AI眼镜; 中长期需要讨论的机会与创新更重要。 ◼ 2B市场:光器件+硅光+GPU+高端化;2C市场:车载+RoboVan+可穿戴+生物电子互动设备 • 其中光器件机会来自MoE架构下的机会,它区别于"Scaling Law"下简单的算力升级,而是MoE架构"高带宽低时延"下光器件 ...
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 10:35
《华为技术披露集》系列 VOL.10 :昇腾+鲲鹏 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往更强大的AI路上,MoE已成为科技巨头另一个首选路径。 只要Scal ...
华为的准万亿大模型,是如何训练的?
虎嗅APP· 2025-05-30 10:18
现在,请大家一起数一下"1"、"2"。 OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了。 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华 ...
华为揭秘:国产昇腾训出世界一流大模型
Guan Cha Zhe Wang· 2025-05-30 08:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
news flash· 2025-05-30 07:33
近日,华为在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE, 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和 训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。据悉, 训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题, 盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全 流程训练。(人民财讯) ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
雷峰网· 2025-05-29 11:44
Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构和训练方法的技术报告 [1] ,进一步披露了这个模型的细节。 训练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾 NPU 上 实现了 准万亿 MoE 模 型的全流程训练。 盘古团队 提出 Depth-Scaled Sandwich-Norm ( DSSN ) 稳定架构 和 TinyInit 小初始化 的 方法, 在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练 。 此外,他们 还 提出了 EP loss 负载优化 方法 , 这一设计不仅保证了 各个专家之间的能保持较好的负载 均衡, 也 提升了专家的 领域 特化能 力。 同时, Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练 策略。 " 对硬件特性的深度挖掘和算法创新,是华为引领AI技术的硬实 力。 " 作者丨 ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 10:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...