谷歌TPU机架的互联方案,OCS市场空间测算
傅里叶的猫·2025-12-02 13:34

之前的文章中,我们分析过英伟达的GB200的互联架构: 被抛弃的NVL72光互联方案 SA的这两个图画的是比较清楚的: 这篇文章 来看下谷歌TPU v7的互联架构 ,TPU跟铜缆、光模块的比例分别是多少? 由于这篇文章前面的内容比较偏技术,我们准备这周直播的时候讲一下,对于看不进去计算方法的 读者,可以关注我们的视频号,到时候看我们的直播。 64 TPU Rack互联架构 本章节内容参考了部分SemiAnalysis的报告。 TPU 最显著的特性之一是通过 ICI 协议实现的超大规模world size的扩展能力,TPU Pod 的world size 可达到 9216 颗 Ironwood TPU,解释一下这里的world size,它是分布式训练中的核心概念,指参与 并行计算的设备总数。 TPU 机架的设计在过去几代产品中保持了较高一致性。每个机架包含 16 个 TPU tray、16 个或 8 个 主机 CPU tray(Host CPU Trays,具体数量取决于散热配置)、一台架顶式交换机(ToR Switch)、 电源单元以及备用电源模块(BBUs)。 每个 TPU 托盘内置 1 块 TPU 板卡 ...