不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网·2025-05-30 09:48
" 从算力利用率突破到后训练吞吐革新,华为用技术创新定义国产 大模型训练标杆。 " 作者丨李希 现在,请大家一起 数一下"1"、"2" 。 OK,短短2秒钟时间,一个 准万亿MoE大模型 就已经 吃透 如何解一道 高等数学大题 了! 而且啊,这个大模型还是 不用GPU 来训练,全流程都是大写的 "国产" 的那种。 这,就是华为通过 "昇腾+Pangu Ultra MoE" 这套组合拳解锁的效果—— 不仅实现了国产算力与国产模型全流程自主可控的训练闭环,更是在集群训练系统性能方面达到行业领先 水平。 有多领先?来看一组数据: 预训练阶段:昇腾Atlas 800T A2万卡集群MFU提升至41% 后训练阶段:单CloudMatrix 384超节点吞吐达35K Tokens/s 值得一提的是,华为还 首次 把背后的一大秘籍给亮了出来。 具体来说,华为在这次发布的 技术报告 中,披露了在昇腾CloudMatrix 384超节点上,高效打通大稀疏 比MoE强化学习后训练框架的关键技术。 此举可以说是让以强化学习(RL)为核心机制的后训练,进入到了超节点集群时代。 01 不用GPU的"炼"准万亿大模型方法 在深入华为Pa ...