MoE模型

Search documents
腾讯混元首个开源混合推理MoE模型在魔搭社区首发
news flash· 2025-06-27 09:56
6月27日,腾讯混元开源的首款混合推理MoE模型Hunyuan-A13B在魔搭社区首发。该模型总参数80B, 激活参数仅13B,是业界首个13B级别的MoE开源混合推理模型,效果比肩同等架构领先开源模型。开 发者可以用更低门槛的方式获得领先的模型能力。(全天候科技) ...
华为,重大发布!
证券时报· 2025-06-20 10:40
重大发布。 鸿蒙6是原生鸿蒙的第二个版本,余承东介绍,鸿蒙6将带来全新的互联和智能体验,全场景体验更易用,时 延更低;鸿蒙智能再进化,AI能力更开放。同时,HMAF鸿蒙智能体框架赋能鸿蒙应用和元服务智能化升级, 让人机交互更自然、强大、高效和协同。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型 的全流程训练。 在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法, 在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了EP loss负载优化方法,这一设计不 仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用 了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架 构在模型效果与效率之间的最佳平衡。 在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节 ...
2025H2新型硬件展望:从科技树节点,看新型硬件
Shenwan Hongyuan Securities· 2025-06-09 07:39
证券分析师:杨海晏 A0230518070003 李国盛 A0230521080003 袁航 A0230521100002 李天奇 A0230522080001 刘菁菁 A0230522080003 黄忠煌 A0230519110001 林起贤 A0230519060002 刘洋 A0230513050006 研究支持: 陈俊兆 A0230124100001 联系人: 刘洋 A0230513050006 2025.6.9 结论 从科技树节点,看新型硬件 2025H2 新型硬件展望 证 券 研 究 报 告 • 串联2022H2、 2024年底、2025H2 科技创新的进展与前景,投资者可以感受到进展; • 前述"硬件-软件"创新轴,会指引投资方向。中短期需要讨论的机会:GPU+HPM、光器件、硅光、激光雷达、车载芯片、RoboVan、AI眼镜; 中长期需要讨论的机会与创新更重要。 ◼ 2B市场:光器件+硅光+GPU+高端化;2C市场:车载+RoboVan+可穿戴+生物电子互动设备 • 其中光器件机会来自MoE架构下的机会,它区别于"Scaling Law"下简单的算力升级,而是MoE架构"高带宽低时延"下光器件 ...
爆改大模型训练,华为打出昇腾+鲲鹏组合拳
虎嗅APP· 2025-06-04 10:35
《华为技术披露集》系列 VOL.10 :昇腾+鲲鹏 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往更强大的AI路上,MoE已成为科技巨头另一个首选路径。 只要Scal ...
华为揭秘:国产昇腾训出世界一流大模型
Guan Cha Zhe Wang· 2025-05-30 08:35
在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节点上,高效打通大稀疏比MoE强化学习 (RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。同时,在5月初发布的预训练系统 加速技术基础上,在不到一个月的时间内,华为团队又完成了一轮迭代升级,包括:适配昇腾硬件的自 适应流水掩盖策略,进一步优化算子执行序,进一步降低Host-Bound以及提升EP通信的掩盖;自适应 管理内存优化策略的开发;数据重排实现DP间Attention负载均衡;以及昇腾亲和的算子优化,这些技 术实现万卡集群预训练MFU由30%大幅提升至41%。 此外,近期发布的盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激 活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业界权 威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第 一。 华为盘古Ultra MoE和盘古Pro MoE系列模型的发布,证明华为不仅完成了国产算力+国产模型的全流程 自主可控的训练实践,同时在集群训练系统的性能上也实现了业界 ...
华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
news flash· 2025-05-30 07:33
近日,华为在MoE模型训练领域再进一步,推出参数规模高达7180亿的全新模型——盘古Ultra MoE, 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和 训练方法的技术报告,披露众多技术细节,充分体现了昇腾在超大规模MoE训练性能上的跨越。据悉, 训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题, 盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型的全 流程训练。(人民财讯) ...
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 10:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
从“积木堆叠”到“有机生命体”:昇腾超节点重新定义AI算力架构
Huan Qiu Wang· 2025-05-26 10:06
【环球网科技报道 记者 张阳】在人工智能加速渗透千行百业的今天,大模型的爆发式增长正推动算力需求进入新纪元。当大模型的参数量越来越大,传统 集群架构虽然可以通过不断叠加来扩展算力,但是各集群之间却受到通信效率的制约,成为大模型训练效率的绊脚石。 一边是各行各业对于AI算力的需求,另一方面在算力供给侧遇到的通信延迟吞噬算力带来的效率瓶颈、居高不下的模型训练成本, 传统集群的困局:从 " 算力堆砌 " 到 " 效率革命 " 的必然跃迁 回顾AI计算的演进历程,传统集群架构的局限性日益凸显。由独立服务器通过以太网堆叠而成的系统,在面对MoE(混合专家模型)等新型大模型时,暴 露出三大核心痛点: 首先是通信瓶颈的指数级恶化。MoE模型将任务拆解为数百个专家并行处理,导致节点间通信量呈几何级增长。传统基于RoCE协议的400G网络,在面对TB 级数据传输需求时,时延高达2ms以上,成为制约训练效率的最大短板。 其次是资源分配的粗放性。传统架构无法感知模型层间计算特征,只能进行静态资源划分。当MoE模型中不同层的专家数量动态变化时,常出现部分节点过 载、部分节点闲置的"冷热不均"现象,导致整体训练效率下降30%以上。 最 ...
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 11:29
" MoE模型推理面临的3大通信难题,被通信尖子生华为逐一突 破,未来将进一步优化。 " 作者丨李希 大语言模型 (Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至整个社会 的焦点。根据 Scaling law ,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数规模也 在指数级增长。随之而来的,是大语言模型部署形态的变化,从神经网络时代的单卡部署,到稠密模型时 代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家( Mixture of Experts, MoE )模型,它甚至会采用数百卡组成的集群和超节点来部署。 而在这基于集群的大模型推理中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能 让多个计算节点高效配合完成任务。有一些常用集合通信操作,比如全量规约(A ll Reduce)可以想象 成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到一个地方, 进行求和、求平均值等计算。 大模型的推理,就只是算力吗? 在大模型里,多个计算节点可能各自计算了一部分参 ...