华为CloudMatrix384算力集群深度分析
2025-06-23 02:10
综上所述,CloudMatrix384并⾮意在成为NVIDIA H100的普适性替代品,⽽是⼀款针对 特定(且⽇益重要的)AI⼯作负载进⾏深度优化的、具有⾼度创新性的专⽤系统。它的出 在性能层⾯,论⽂数据显示,CloudMatrix-Infer服务⽅案在昇腾910C上运⾏MoE模型时 ,其计算效率(以tokens/s/TFLOPS衡量)在预填充(Prell)和解码(Decode)阶段均 超越了已公开的NVIDIA H100与H800数据。这⼀成就并⾮源于单NPU在理论峰值算⼒上 的超越,⽽是华为"以系统取胜"策略的集中体现。通过PDC解耦服务架构、⼤规模专家并 ⾏(LEP)、硬件感知的融合通信算⼦(如AIV-Direct)以及精细化的INT8量化等⼀系列 软硬件协同优化,华为最⼤化了集群的有效算⼒利⽤率。 更多一手调研纪要和海外投行研报数据加V:shuinu9870 更多一手调研纪要和海外投行研报数据加V:shuinu9870 更多一手调研纪要和海外投行研报数据加V:shuinu9870 更多一手调研纪要和海外投行研报数据加V:shuinu9870 更多一手调研纪要和海外投行研报数据加V:shuinu9870 ...