盘古Ultra MoE

Search documents
华为首个!重磅发布!
Zheng Quan Shi Bao· 2025-06-30 04:37
Core Insights - Huawei has announced the open-sourcing of the Pangu 70 billion parameter dense model and the 720 billion parameter mixture of experts model (Pangu Pro MoE 72B), marking a significant step in its Ascend ecosystem strategy to promote AI research and innovation across various industries [1][5] - The Pro MoE 72B model, with 720 billion parameters and 160 billion activated parameters, demonstrates exceptional performance that can rival models with trillion parameters, ranking first among domestic models under the 1 trillion parameter category in the latest Super CLUE rankings [3][4] - Huawei's Pangu models have been successfully implemented in over 30 industries and 500 scenarios, showcasing their value in sectors such as government, finance, manufacturing, healthcare, and more [5] Summary by Sections Open-Sourcing and Model Performance - Huawei's open-sourcing of the Pangu models aims to enhance the development of AI technologies on domestic computing platforms, expanding the Ascend ecosystem [5] - The Pro MoE 72B model's innovative design allows for dynamic activation of expert networks, achieving high performance with fewer activated parameters [3] Technological Advancements - The recent release of the Pangu Ultra MoE model, with a parameter scale of 718 billion, highlights Huawei's advancements in training large-scale models on the Ascend AI computing platform [4] - The Pangu models are built on a fully integrated software and hardware training system, demonstrating Huawei's capability in achieving a self-controlled training process from hardware to software [4] Industry Impact and Strategic Focus - Huawei emphasizes practical applications of its models, focusing on solving real-world problems across various industries rather than merely theoretical advancements [4] - The launch of the Pangu 5.5 model includes five foundational models targeting NLP, multimodal, prediction, scientific computing, and computer vision, positioning them as core drivers for digital transformation in industries [3]
华为首个!重磅发布!
证券时报· 2025-06-30 04:12
据了解,华为最新开源的Pro MoE 72B大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动态激活专家网络的创新设计,实现了以小打大的优异性 能,甚至可以媲美千亿级模型的性能表现。在业界权威大模型榜单Super CLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。 华为加入开源大军,开源了首个大模型。 6月30日,华为宣布开源盘古70亿参数的稠密模型和720亿参数的混合专家模型(盘古Pro MoE 72B)。此外,基于昇腾的模型推理技术也同步开源。华为表示,此 举是华为践行昇腾生态战略的又一关键举措,将推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。 最近一段时间以来,华为公开了一系列基于昇腾的大模型技术,让国内AI开发者备感期待。 今年6月20日举办的华为开发者大会2025上,华为重磅发布了盘古大模型5.5。全新升级的盘古大模型5.5包含了五大基础模型,分别面向NLP(自然语言处理)、多 模态、预测、科学计算、计算机视觉领域,推动大模型成为行业数智化转型的核心动力。会上,华为还发布了基于Cloud Matrix384超节点的新一代昇 ...
华为开源盘古7B稠密和72B混合专家模型
Guan Cha Zhe Wang· 2025-06-30 02:38
5月底,华为曾披露,盘古Pro MoE大模型,在参数量仅为720亿,激活160亿参数量的情况下,通过动 态激活专家网络的创新设计,实现了以小打大的优异性能,甚至可以媲美千亿级模型的性能表现。在业 界权威大模型榜单SuperCLUE最新公布的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国 内第一。 "盘古72B是兼顾性能与推理成本的黄金尺寸,最适合行业用户用AI改造业务。"华为专家曾表示。 随后在6月,有华为技术专家告诉观察者网,华为初步计划会向外开源,首先是盘古72B MoE模型是最 有可能开源的模型。其次是小模型,有可能会给高校开源。 6月30日早上,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和 基于昇腾的模型推理技术。 华为表示,此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推 进人工智能在千行百业的应用与价值创造。 根据公告,盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台。基于昇腾的超大规模 MoE模型推理代码,已正式上线开源平台。盘古7B相关模型权重与推理代码将于近期上线开源平台。 (文/观 ...
华为,重大发布!
新华网财经· 2025-06-20 12:17
值得一提的是,5月30日,证券时报·券商中国记者从华为获悉,华为在MoE模型训练领域再进一步,重 磅推出参数规模高达7180亿的全新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练 的准万亿MoE模型。同时,华为发布盘古Ultra MoE模型架构和训练方法的技术报告,披露众多技术细 节,充分体现了昇腾在超大规模MoE训练性能上的跨越。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一 难题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿 MoE模型的全流程训练。 "一年以来,盘古大模型深入行业解难题,在30多个行业、500多个场景中落地。"6月20日下午,在华为 开发者大会2025上,华为常务董事、华为云计算CEO张平安分享了盘古大模型在工业、农业、科研等领 域的丰富创新应用和落地实践,并重磅发布盘古大模型5.5,在自然语言处理、多模态等5大基础模型全 面升级,加速重塑千行万业。 会上,华为云还发布了盘古医学、金融、政务、工业、汽车五个具备深度思考能力的行业自然语言大模 型,加速行业智能化,并将在6月底正式上 ...
刚刚,华为盘古大模型5.5问世!推理、智能体能力大爆发
机器之心· 2025-06-20 11:59
就在刚刚,在华为开发者大会 2025(HDC 2025)上,华为重磅发布了 盘 古大 模型 5.5 ,其中自然语言处理(NLP)能力比肩国际一流模型,并在多模态世界模 型方面做到全国首创。 此次,全新升级的盘古大模型 5.5 包含了 五大基础模型 ,分别面向 NLP 、 多模态 、 预测 、 科学计算 、 CV 领域,进一步推动大模型成为行业数智化转型的核 心动力。 华为常务董事、华为云 CEO 张平安正式发布盘古大模型 5.5 会上,华为诺亚方舟实验室主任王云鹤对该系列模型的核心技术进行了大揭秘。 机器之心报道 编辑:杜伟、Panda 在国产大模型领域,华为盘古大模型一直是比较独特的存在。 该系列模型强调「不作诗,只做事」,深耕行业,赋能千行百业,推动产业智能化升级。从盘古 1.0 到盘古 5.0,华为专注于用大模型解决实际产业问题,并获得 了市场的广泛认可。 王云鹤 此次,盘古 5.5 在 NLP 领域主要有三大模型组成,即 盘古 Ultra MoE 、 盘古 Pro MoE 、 盘古 Embedding ;以及快慢思考合一的 高效推理策略 、盘古深度研究 产品 DeepDiver 。 我们接下来一一来看 ...
华为,重大发布!
证券时报· 2025-06-20 10:40
重大发布。 鸿蒙6是原生鸿蒙的第二个版本,余承东介绍,鸿蒙6将带来全新的互联和智能体验,全场景体验更易用,时 延更低;鸿蒙智能再进化,AI能力更开放。同时,HMAF鸿蒙智能体框架赋能鸿蒙应用和元服务智能化升级, 让人机交互更自然、强大、高效和协同。 据悉,训练超大规模和极高稀疏性的MoE模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难 题,华为盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾平台上实现了准万亿MoE模型 的全流程训练。 在模型架构上,盘古团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化的方法, 在昇腾平台上实现了超过18TB数据的长期稳定训练。此外,他们还提出了EP loss负载优化方法,这一设计不 仅保证了各个专家之间的能保持较好的负载均衡,也提升了专家的领域特化能力。同时,盘古Ultra MoE使用 了业界先进的MLA和MTP架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架 构在模型效果与效率之间的最佳平衡。 在训练方法上,华为团队首次披露在昇腾CloudMatrix 384超节 ...
AI人才大揭榜!人才竞争印证产业扩张加速度
Zheng Quan Zhi Xing· 2025-06-18 02:53
在人工智能技术话语权争夺的关键节点,科技行业巨头对AI人才的争夺已进入白热化加速阶段。2025年以来,这场人才攻坚战的激烈程度持续升级加码, 深度映射出AI产业$科创人工智能ETF华夏(589010)以指数级增速迈向发展深水区的现实图景。 01AI人才军备竞赛各显神通,AI产业发展进入深水区 6月16日,腾讯发起算法大赛,拿出数百万丰厚奖金池和校招Offer吸引全球人才,其中冠军团队将获得200万元奖金,前十强选手可直接获得腾讯核心业务 部门录用机会。 6月15日,百度正式启动2026届"AIDU计划",岗位数量较往年扩增超过60%,涵盖百度23个核心业务部门和11类技术研究方向,是百度最大规模的顶尖AI人 才招聘。同时,百度提出了offer薪资上不封顶的条件。 4月,阿里云在全球顶尖高校招募AI技术储备人才,为近年来规模最大的AI人才校园招聘。招募大语言模型、多模态理解与生成、模型应用、AI Infra等领域 技术人才。 5月,京东也推出"顶尖青年技术天才计划",面向全球高校本硕博毕业生及毕业两年内的技术人才开放招募,薪酬不设上限,研究方向涵盖多模态大模型与 应用、AI Infra等方向。 2)AI智能硬件 ...
华为突破制裁的密码,藏在“384超节点”中
虎嗅APP· 2025-06-17 10:55
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 "以非摩尔补摩尔、以集群补单芯片" 在讨论华为如何短时间内实现赶超的问题前,我们需要先明确一个问题:"384超节点"算是华 为在制裁下的无奈之举吗? 不完全是。 除了制裁下寻求破局这个角度,华为打造"超节点"这 ...
经济日报:让人工智能跑出中国速度
news flash· 2025-06-12 23:03
在人工智能领域,中国好消息不断。去年年底以来,DeepSeek火爆全球,以实力回击了"中国做不出一 流大模型"的论断。近日,华为推出参数规模高达7180亿的全新模型盘古Ultra MoE,这是一个全流程在 国产昇腾AI计算平台上训练出来的准万亿MoE(混合专家)模型,以实践结果证明了国产算力也能训练出 世界先进大模型。中美两国被视为人工智能发展的第一梯队。与中国相比,美国在人工智能领域起步较 早,在核心技术、资本投入和生态成熟度等方面更具优势。自ChatGPT、Sora登场后,有一些声音认为 中美人工智能差距越来越大,难以追赶。事实上,中美在人工智能领域的竞争呈现"美强中快"的动态变 化,中国凭借应用创新、数据规模和政策驱动快速追赶,差距持续缩小。DeepSeek的成功,已经证明 我国在大模型领域走出了一条"低成本、高性能"的创新之路。(经济日报) ...
让人工智能跑出中国速度
Jing Ji Ri Bao· 2025-06-12 22:06
Core Insights - The article highlights significant advancements in China's artificial intelligence (AI) sector, particularly with the launch of Huawei's Pangu Ultra MoE model, which has a parameter scale of 718 billion, showcasing the capability of domestic computing power to train world-class large models [1][2] - The competition between China and the United States in AI is characterized by a "strong U.S. and fast China" dynamic, where China is rapidly closing the gap through application innovation, data scale, and policy support [1][2] - China's AI industry has made notable progress, becoming the largest holder of AI patents globally, with a core industry scale nearing 600 billion yuan and over 4,700 companies, indicating a comprehensive industrial system [3][4] Industry Analysis - Computing power is identified as a critical battleground in AI development, with talent, data, and computing power being the three key elements [2] - Despite the existing gap in core algorithms and advanced computing power, China is leveraging innovative approaches to enhance system performance, demonstrating a pathway to overcome technological barriers [2][3] - The article emphasizes the importance of a systematic approach to AI development, highlighting China's full-stack autonomous technology chain that is narrowing the gap with global leaders [3] Strategic Outlook - The development of AI in China requires confidence and patience, as it involves a comprehensive competition of innovation systems, industrial resilience, and strategic vision [4] - China's manufacturing sector, which accounts for approximately 30% of global manufacturing value added, serves as a significant advantage for AI development [4] - Continuous improvement in high-end chip architecture, cluster communication efficiency, and software ecosystems is essential for the advancement of China's AI industry [3][4]