华为+DeepSeek,推理性能创新高!技术报告也公布出来了
量子位·2025-05-19 04:37
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 部署 超大规模MoE 这件事, 国产芯片 的推理性能,已经再创新高了—— 不仅是"英伟达含量为0"这么简单,更是性能 全面超越 英伟达Hopper架构! 而做到这一点的,正是 华为昇腾 ;具体而言,共包含两个产品: CloudMatrix 384超节点 部署DeepSeek V3/R1,在50ms时延约束下单卡Decode吞吐突破 1920 Tokens/s Atlas 800I A2推理服务器 部署DeepSeek V3/R1,在100ms时延约束下单卡吞吐达到 808 Tokens/s ,可支持灵活的分布式部署 之所以能够这般,是因为华为昇腾所采取的 "以数学补物理" ——这种通过数学理论、工具、算法和建模等方式,来弥补硬件和工艺的局限 性,实现最大化发挥芯片和系统能力效果。 华为昇腾还不只是"官宣"一下而已,后面更会是 全面开源 。 不仅已经将昇腾在超大规模MoE模型推理部署的技术报告分享了出来,在一个月时间内,还会把实现这些核心技术的 相关代码 也都会陆续 开源出来。 然而,以6710亿参数的DeepSeek V3为例,这类超大规模MoE模型虽然强 ...