华为+DeepSeek，推理性能创新高！技术报告也公布出来了

金磊发自凹非寺量子位 | 公众号 QbitAI 部署超大规模MoE 这件事，国产芯片的推理性能，已经再创新高了—— 不仅是"英伟达含量为0"这么简单，更是性能全面超越英伟达Hopper架构！而做到这一点的，正是华为昇腾；具体而言，共包含两个产品： CloudMatrix 384超节点部署DeepSeek V3/R1，在50ms时延约束下单卡Decode吞吐突破 1920 Tokens/s Atlas 800I A2推理服务器部署DeepSeek V3/R1，在100ms时延约束下单卡吞吐达到 808 Tokens/s ，可支持灵活的分布式部署之所以能够这般，是因为华为昇腾所采取的 "以数学补物理" ——这种通过数学理论、工具、算法和建模等方式，来弥补硬件和工艺的局限性，实现最大化发挥芯片和系统能力效果。华为昇腾还不只是"官宣"一下而已，后面更会是全面开源。不仅已经将昇腾在超大规模MoE模型推理部署的技术报告分享了出来，在一个月时间内，还会把实现这些核心技术的相关代码也都会陆续开源出来。然而，以6710亿参数的DeepSeek V3为例，这类超大规模MoE模型虽然强 ...