Workflow
训练
icon
Search documents
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 09:48
" 从算力利用率突破到后训练吞吐革新,华为用技术创新定义国产 大模型训练标杆。 " 作者丨李希 现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏 比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法 在深入华为Pa ...
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 09:38
现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经吃透如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通 过 " 昇腾+Pan gu Ultra MoE" 这套 组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行 业领先水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通 大稀疏比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术 痛点。 整体 ...
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 09:32
现在,请大家一起 数一下"1"、"2" 。 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: · 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% · 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 不用GPU的"炼"准万亿大模型方法 在深入华为Pangu Ultra MoE训练系统全流程之前,老规矩,我们还是先来了解一下此前的技术痛点。 整体来看,在当前的MoE预训练和强化学习后训练过程中所存在的挑战可以归结为六点: · 并行策略配置困难 :面对数据并行、张量并行、专家并行、流水线并行和序列并行等多种策略的组合 选择,加上稀疏激活导致的负载不平衡因素,很难通过人工经验找到最优的并行配置方案。 · All-to-All通信 ...
华为揭秘:国产昇腾训出世界一流大模型
Guan Cha Zhe Wang· 2025-05-30 08:35
Core Insights - Huawei has launched a new model called Pangu Ultra MoE with a parameter scale of 718 billion, marking a significant advancement in MoE model training on the Ascend AI computing platform [1][3] - The Pangu team has innovated in model architecture and training methods to ensure stable training of ultra-large and highly sparse MoE models, overcoming challenges typically associated with such training processes [1][2] - The release of Pangu Ultra MoE and Pangu Pro MoE series models demonstrates Huawei's capability in achieving a fully autonomous training process with domestic computing power and models, reinforcing the innovation capacity of China's AI infrastructure [3] Model Architecture - The Pangu team introduced the Depth-Scaled Sandwich-Norm (DSSN) stable architecture and TinyInit initialization method, enabling long-term stable training with over 18TB of data on the Ascend platform [1] - The EP loss load optimization method was developed to maintain load balancing among experts and enhance their specialization capabilities [1] - The Pangu Ultra MoE employs advanced MLA and MTP architectures, utilizing a Dropless training strategy during both pre-training and post-training phases to balance model performance and efficiency [1] Training Methods - Huawei's team has disclosed key technologies that enable efficient integration of large sparse MoE reinforcement learning (RL) post-training frameworks on the Ascend CloudMatrix 384 supernodes, marking a transition to supernode cluster training [2] - Recent upgrades to the pre-training system have improved the performance of the MFU in a 10,000-card cluster from 30% to 41% [2] - The recently released Pangu Pro MoE model, with 72 billion parameters and 16 billion active parameters, showcases excellent performance through innovative dynamic expert network activation, rivaling the performance of models with over 100 billion parameters [2]
中石化与石化盈科申请针对设定图案的关键信息提取模型训练方法及相关产品专利,完成设定图案提取模型的训练
Sou Hu Cai Jing· 2025-05-30 03:42
Group 1 - China Petroleum & Chemical Corporation (Sinopec) has applied for a patent titled "Key Information Extraction Model Training Method and Related Products for Set Patterns," with publication number CN120071375A and application date of February 2025 [1] - The patent application describes a method for training a key information extraction model based on documents containing set patterns, which includes converting documents into images, extracting pattern location and category information, and associating this with textual information to create a training dataset [1] Group 2 - China Petroleum & Chemical Corporation was established in 2000, located in Beijing, and primarily engages in the petroleum, coal, and other fuel processing industries, with a registered capital of approximately 12.17 billion RMB [2] - Sinopec has invested in 254 companies, participated in 5,000 bidding projects, and holds 45 trademark records and 5,000 patent records, along with 39 administrative licenses [2] - Sinopec's partner, Sinopec Yinkai Information Technology Co., Ltd., was founded in 2002, also in Beijing, focusing on the accommodation industry, with a registered capital of 500 million RMB [2] - Sinopec Yinkai has invested in 8 companies, participated in 2,070 bidding projects, and holds 113 trademark records and 440 patent records, along with 14 administrative licenses [2]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 10:50
Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型。最近华为盘古团队发布了Pangu Ultra MoE模型架构和训练方法的技术报告[1],进一步披露了 这个模型的细节。 训 练 超大规模和极高稀疏性的 MoE 模型 极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计, 成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。 盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构 和 TinyInit 小初始化 的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们 还提出了 EP group loss 负载优化 方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了 业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。 破解准万亿 MoE 模型性能瓶颈 打造芯片协同的先进架构 近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 7 ...
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 10:34
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.7 :模型训练 Pangu Ultra MoE是一个全流程在昇腾NPU上训练的准万亿MoE模型 ...
广州南沙全力构建人工智能产业新高地
5月26日,"湾区人工智能产业创新联盟"在广州市南沙区正式成立。记者日前在南沙实地调研了解到, 当前南沙正在全力构建粤港澳大湾区乃至全球人工智能产业新高地,一大批人工智能企业集聚发展,推 动前沿技术与实体经济融合发展,人工智能产业呈现出蓬勃发展的势头。 ● 本报记者 武卫红 打造产业新高地 据介绍,创新联盟是由香港科技大学(广州)与华为联合港澳及国际知名机构共同发起,汇聚粤港澳大 湾区"产学研用金"多方力量,以"立足湾区、协同港澳、面向世界"为宗旨,旨在整合国际、港澳及内地 科研机构的技术资源,赋能南沙,辐射广州、广东乃至全国,推动南沙成为粤港澳大湾区人工智能创新 引领地、全国AI+产业发展风向标、世界人工智能人才集聚区。 以创新联盟成立为契机,南沙将全方位升级人工智能产业创新发展生态。创新联盟将聚焦三大核心任 务,全面推动南沙人工智能产业升级。在技术创新方面,创新联盟将重点在大模型训练、具身智能等关 键领域寻求突破,强化技术创新策源能力;在产业集聚方面,创新联盟将推动人工智能上下游企业集聚 发展,形成千亿级产业集群;在生态构建方面,创新联盟将推动建设公共算力平台、开放数据集与应用 场景库,构建全链条产业服务 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
3 6 Ke· 2025-05-28 11:59
Core Insights - The AI industry is currently experiencing a significant debate over the effectiveness of pre-training models versus first principles, with notable figures like Ilya from OpenAI suggesting that pre-training has reached its limits [1][2] - The shift from a consensus-driven approach to exploring non-consensus methods is evident, as companies and researchers seek innovative solutions in AI [6][7] Group 1: Industry Trends - The AI landscape is witnessing a transition from a focus on pre-training to exploring alternative methodologies, with companies like Sand.AI and NLP LAB leading the charge in applying multi-modal architectures to language and video models [3][4] - The emergence of new models, such as Dream 7B, demonstrates the potential of applying diffusion models to language tasks, outperforming larger models like DeepSeek V3 [3][4] - The consensus around pre-training is being challenged, with some experts arguing that it is not yet over, as there remains untapped data that could enhance model performance [38][39] Group 2: Company Perspectives - Ant Group's Qwen team, led by Lin Junyang, has faced criticism for being conservative, yet they emphasize that their extensive experimentation has led to valuable insights, ultimately reaffirming the effectiveness of the Transformer architecture [5][15] - The exploration of Mixture of Experts (MoE) models is ongoing, with the team recognizing the potential for scalability while also addressing the challenges of training stability [16][20] - The industry is increasingly focused on optimizing model efficiency and effectiveness, with a particular interest in achieving a balance between model size and performance [19][22] Group 3: Technical Innovations - The integration of different model architectures, such as using diffusion models for language generation, reflects a broader trend of innovation in AI [3][4] - The challenges of training models with long sequences and the need for effective optimization strategies are critical areas of focus for researchers [21][22] - The potential for future breakthroughs lies in leveraging increased computational power to revisit previously unviable techniques, suggesting a cycle of innovation driven by advancements in hardware [40][41]
大模型的人味儿,从何而来?
虎嗅APP· 2025-05-27 11:37
本文来自微信公众号: AI故事计划 ,作者:李奕萱,编辑:温丽虹,原文标题:《我,文科生,教 AI回答没有标准答案的问题》,题图来自:视觉中国 羽山在复旦研究了10年哲学。今年5月,他通过了毕业论文答辩,正在准备博士学位的授予资料。 在思考毕业去向时,他偶然在小红书的官网上看到了招募通知,岗位叫"AI人文训练师"。羽山当即 投递了简历,一个念头从脑海中冒了出来:AI行业终于走到了需要人文研究者的阶段。 对AI进行人文训练,属于模型"后训练"的范畴。在"后训练"中特别强调人文面向,尚未成为行业通 行的做法。但有两家公司值得关注,一家是全球头部的大模型公司Anthropic聘请了哲学系博士,负 责模型后训练的人类价值对齐与微调。在国内,DeepSeek年初传出消息,招聘了北大中文系学生担 任"数据百晓生",对模型做后训练。这被认为是DeepSeek文采出色的来源。 羽山入职之后才知道,小红书这支团队也刚组建不久。同事不算多,但都是来自知名高校人文学科的 硕士、博士生。 团队的首要任务,是设计AI的观念和个性。 听起来很玄。羽山遇到的第一个问题是,"我得了胰腺癌"应该如何回答? 如果把这句话发给市面上主流的AI产品 ...