MoE模型 - filings, earnings calls, financial reports, news

MoE模型

Search documents

news flash· 2025-06-27 09:56

6月27日，腾讯混元开源的首款混合推理MoE模型Hunyuan-A13B在魔搭社区首发。该模型总参数80B，激活参数仅13B，是业界首个13B级别的MoE开源混合推理模型，效果比肩同等架构领先开源模型。开发者可以用更低门槛的方式获得领先的模型能力。（全天候科技） ...

证券时报· 2025-06-20 10:40

重大发布。鸿蒙6是原生鸿蒙的第二个版本，余承东介绍，鸿蒙6将带来全新的互联和智能体验，全场景体验更易用，时延更低；鸿蒙智能再进化，AI能力更开放。同时，HMAF鸿蒙智能体框架赋能鸿蒙应用和元服务智能化升级，让人机交互更自然、强大、高效和协同。据悉，训练超大规模和极高稀疏性的MoE模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，华为盘古团队在模型架构和训练方法上进行了创新性设计，成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。在模型架构上，盘古团队提出Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit小初始化的方法，在昇腾平台上实现了超过18TB数据的长期稳定训练。此外，他们还提出了EP loss负载优化方法，这一设计不仅保证了各个专家之间的能保持较好的负载均衡，也提升了专家的领域特化能力。同时，盘古Ultra MoE使用了业界先进的MLA和MTP架构，在预训练和后训练阶段都使用了Dropless训练策略，实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。在训练方法上，华为团队首次披露在昇腾CloudMatrix 384超节 ...

MoE模型

Telecommunications Equipment

Telecommunications Equipment

鸿蒙6

盘古大模型5.5

盘古Ultra MoE

2025H2新型硬件展望：从科技树节点，看新型硬件

Shenwan Hongyuan Securities· 2025-06-09 07:39

证券分析师：杨海晏 A0230518070003 李国盛 A0230521080003 袁航 A0230521100002 李天奇 A0230522080001 刘菁菁 A0230522080003 黄忠煌 A0230519110001 林起贤 A0230519060002 刘洋 A0230513050006 研究支持：陈俊兆 A0230124100001 联系人：刘洋 A0230513050006 2025.6.9 结论从科技树节点，看新型硬件 2025H2 新型硬件展望证券研究报告 • 串联2022H2、 2024年底、2025H2 科技创新的进展与前景，投资者可以感受到进展； • 前述"硬件-软件"创新轴，会指引投资方向。中短期需要讨论的机会：GPU+HPM、光器件、硅光、激光雷达、车载芯片、RoboVan、AI眼镜；中长期需要讨论的机会与创新更重要。 ◼ 2B市场：光器件+硅光+GPU+高端化；2C市场：车载+RoboVan+可穿戴+生物电子互动设备 • 其中光器件机会来自MoE架构下的机会，它区别于"Scaling Law"下简单的算力升级，而是MoE架构"高带宽低时延"下光器件 ...

虎嗅APP· 2025-06-04 10:35

《华为技术披露集》系列 VOL.10 ：昇腾+鲲鹏 HUAWEI X HUXIU 三分之一个世纪前，加拿大学者们提出了经典的MoE模型神经网络结构，在人类探索AI的「石器时代」中，为后世留下了变革的火种。近十年前，美国硅谷的互联网巨擎在理论和工程等方面，突破了MoE模型的原始架构，让这个原本被置于学术高阁的理念，化身成为了随后AI竞争的导火索。如今，后发优势再一次来到了大洋此岸，以华为为代表的中国科技企业，纷纷提出对MoE架构的优化重组方案。尤其是华为的MoGE架构，不仅克服了MoE负载不均衡及效率瓶颈的弊病，还能够降本增效，便于训练和部署。 AI之战远未终结，但正如在其他领域中「多快好省」的中国产业底色一样，大模型这棵生于西方长于彼岸的科技树，也同样会被东方智慧经手后，进化为更加普适和亲切的工具。近期，虎嗅将打造《华为技术披露集》系列内容，通过一连串的技术报告，首次全面披露相关的技术细节。希望本系列内容能为业界起到参考价值，也希望更多人能与华为一起，共同打造长期持续的开放协作生态环境，让昇腾生态在中国茁壮成长。在通往更强大的AI路上，MoE已成为科技巨头另一个首选路径。只要Scal ...

MoE模型

Telecommunications Equipment

Telecommunications Equipment

Guan Cha Zhe Wang· 2025-05-30 08:35

在训练方法上，华为团队首次披露在昇腾CloudMatrix 384超节点上，高效打通大稀疏比MoE强化学习（RL）后训练框架的关键技术，使RL后训练进入超节点集群时代。同时，在5月初发布的预训练系统加速技术基础上，在不到一个月的时间内，华为团队又完成了一轮迭代升级，包括：适配昇腾硬件的自适应流水掩盖策略，进一步优化算子执行序，进一步降低Host-Bound以及提升EP通信的掩盖；自适应管理内存优化策略的开发；数据重排实现DP间Attention负载均衡；以及昇腾亲和的算子优化，这些技术实现万卡集群预训练MFU由30%大幅提升至41%。此外，近期发布的盘古Pro MoE大模型，在参数量仅为720亿，激活160亿参数量的情况下，通过动态激活专家网络的创新设计，实现了以小打大的优异性能，甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上，位居千亿参数量以内大模型排行并列国内第一。华为盘古Ultra MoE和盘古Pro MoE系列模型的发布，证明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践，同时在集群训练系统的性能上也实现了业界 ...

华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节

news flash· 2025-05-30 07:33

近日，华为在MoE模型训练领域再进一步，推出参数规模高达7180亿的全新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇腾在超大规模MoE训练性能上的跨越。据悉，训练超大规模和极高稀疏性的MoE模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，盘古团队在模型架构和训练方法上进行了创新性设计，成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。(人民财讯) ...

MoE模型

Software and IT Services

盘古Ultra MoE

昇腾AI计算平台

MoE模型

Software and IT Services

盘古Ultra MoE

昇腾AI计算平台

Pangu Ultra准万亿MoE模型：业界一流，源自昇腾原生的长稳训练

第一财经· 2025-05-29 10:50

Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1]，进一步披露了这个模型的细节。训练超大规模和极高稀疏性的 MoE 模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，盘古团队在模型架构和训练方法上进行了创新性设计，成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外，他们还提出了 EP group loss 负载优化方法，这一设计不仅保证了各个专家之间能保持较好的负载均衡，也提升了专家的领域特化能力。同时，Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构，在训练时使用了 Dropless 训练策略。破解准万亿 MoE 模型性能瓶颈打造芯片协同的先进架构近期，盘古团队在 MoE 模型训练领域再进一步，重磅推出参数规模高达 7 ...

三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

3 6 Ke· 2025-05-28 11:59

文｜周鑫雨编辑｜苏建勋预训练还是不是王道？如今AI行业，这是最大的"罗生门"事件。 2023年，模型预训练，还是第一性原理。然而，从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头"，到聚焦强化学习的DeepSeek R1出圈，又昭示着预训练风光不再。从人人追捧，到口碑滑坡，预训练境遇的变化，是AI行业"共识"与"非共识"不断流动的一个缩影。针对AI技术的共识与非共识，2025年5月27日的"技术开放日"上，蚂蚁集团攒了一个交流局。圆桌对话的参与者，是当下最热的创业者、技术高管和学者：曹越，视频模型公司Sand.AI创始人，前光年之外联创。2024年7月完成两轮融资后，公司估值已经超过1亿美元；林俊旸，阿里通义千问（Qwen）技术负责人。从2021年发布的M6，到2025年的Qwen3，他都是名副其实的模型一把手；孔令鹏，香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B，成为了开源扩散语言模型的新SOTA。 △图源：作者拍摄某种意义上，曹越和孔令鹏，都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构，分别应用到 ...

从“积木堆叠”到“有机生命体”：昇腾超节点重新定义AI算力架构

Huan Qiu Wang· 2025-05-26 10:06

【环球网科技报道记者张阳】在人工智能加速渗透千行百业的今天，大模型的爆发式增长正推动算力需求进入新纪元。当大模型的参数量越来越大，传统集群架构虽然可以通过不断叠加来扩展算力，但是各集群之间却受到通信效率的制约，成为大模型训练效率的绊脚石。一边是各行各业对于AI算力的需求，另一方面在算力供给侧遇到的通信延迟吞噬算力带来的效率瓶颈、居高不下的模型训练成本，传统集群的困局：从 " 算力堆砌 " 到 " 效率革命 " 的必然跃迁回顾AI计算的演进历程，传统集群架构的局限性日益凸显。由独立服务器通过以太网堆叠而成的系统，在面对MoE（混合专家模型）等新型大模型时，暴露出三大核心痛点：首先是通信瓶颈的指数级恶化。MoE模型将任务拆解为数百个专家并行处理，导致节点间通信量呈几何级增长。传统基于RoCE协议的400G网络，在面对TB 级数据传输需求时，时延高达2ms以上，成为制约训练效率的最大短板。其次是资源分配的粗放性。传统架构无法感知模型层间计算特征，只能进行静态资源划分。当MoE模型中不同层的专家数量动态变化时，常出现部分节点过载、部分节点闲置的"冷热不均"现象，导致整体训练效率下降30%以上。最 ...

AI算力架构

MoE模型

Artificial Intelligence

Artificial Intelligence

昇腾超节点

MindIE Motor

昇腾杀手锏FlashComm，让模型推理单车道变多车道

雷峰网· 2025-05-22 11:29

" MoE模型推理面临的3大通信难题，被通信尖子生华为逐一突破，未来将进一步优化。 " 作者丨李希大语言模型 (Large Language Models, LLMs) 自从其问世以来，便迅速成为全球科技领域乃至整个社会的焦点。根据 Scaling law ，大语言模型的能力与其参数量的对数正相关，因此大语言模型的参数规模也在指数级增长。随之而来的，是大语言模型部署形态的变化，从神经网络时代的单卡部署，到稠密模型时代的多卡 / 单节点部署，再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家（ Mixture of Experts, MoE ）模型，它甚至会采用数百卡组成的集群和超节点来部署。而在这基于集群的大模型推理中，集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式，能让多个计算节点高效配合完成任务。有一些常用集合通信操作，比如全量规约（A ll Reduce）可以想象成一群工人各自收集了不同区域的建筑材料数据，全量规约就是把所有工人手里的数据汇总到一个地方，进行求和、求平均值等计算。大模型的推理，就只是算力吗？在大模型里，多个计算节点可能各自计算了一部分参 ...

Telecommunications Equipment

Telecommunications Equipment

昇腾

Previous Next