Workflow
Huawei CloudMatrix
icon
Search documents
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超NV H100
量子位· 2025-06-29 05:34
金磊 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 今年,AI大厂采购GPU的投入又双叒疯狂加码—— 马斯克xAI打算把自家的10万卡超算扩增10倍,Meta也计划投资100亿建设一个130万卡规模的数据中心…… GPU的数量,已经成为了互联网企业AI实力的直接代表。 的确,建设AI算力,这种堆卡模式是最简单粗暴的,但实际上, AI集群却并非是卡越多就越好用。 GPU虽然计算性能好,但是在集群化的模式下依然有很多挑战,即便强如英伟达,也面临通信瓶颈、内存碎片化、资源利用率波动等问题。 简单说就是,由于通信等原因的限制,GPU的功力没办法完全发挥出来。 所以,建设AI时代的云数据中心,不是把卡堆到机柜里就能一劳永逸,现有数据中心的不足,需要用架构的创新才能解决。 最近,华为发布了一篇60页的重磅论文,提出了他们的下一代AI数据中心架构设计构想—— Huawei CloudMatrix ,以及该构想的第一代产 品化的实现CloudMatrix384。相对于简单的"堆卡",华为CloudMatrix给出的架构设计原则是,高带宽全对等互连和细粒度资源解耦。 这篇论文干货满满,不仅展示了CloudMatrix ...