全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位·2025-05-19 04:37
InfiniteHBD团队 投稿 量子位 | 公众号 QbitAI 随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来, 高带宽域的设计对提升大模型训练效率至关重要 。 然而, 现有的 HBD 架构在可扩展性、成本和容错能力等方面存在根本性限制 : 以交换机为中心的HBD (如NVIDIA NVL-72) 成本高昂、不易扩展规模;以GPU为中心的HBD (如 Google TPUv3和Tesla Dojo) 存在 严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。 为解决上述问题, 北京大 学、阶跃星辰和曦智科技的研究团队提出了 InfiniteHBD ,这是 一种以光交换模组为中心的高带宽域架构 。 InfiniteHBD 通过将低成本光交换 ( OCS , Optical Circuit Switching ) 能力嵌入每个光电转换模组,实现了数据中心规模的低成本可扩 展性和节点级故障隔离能力。 InfiniteHBD 的单位成本仅为 NVL-72 的 31% , GPU 浪费率接近零 (比 NVL-72 和 TPUv4 ...