Tesla Dojo

Search documents
【马斯克:将于今年晚些时候上线Dojo 2】马斯克表示,Tesla Dojo AI训练计算机正在取得进展。我们将于今年晚些时候上线Dojo 2。一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了,但Dojo 3一定会更出色。
news flash· 2025-06-05 18:29
【马斯克:将于今年晚些时候上线Dojo 2】马斯克表示,Tesla Dojo AI训练计算机正在取得进展。我们 将于今年晚些时候上线Dojo 2。一项新技术需要经历三次重大迭代才能走向卓越。Dojo 2已经很好了, 但Dojo 3一定会更出色。 ...
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位· 2025-05-19 04:37
InfiniteHBD团队 投稿 量子位 | 公众号 QbitAI 随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来, 高带宽域的设计对提升大模型训练效率至关重要 。 然而, 现有的 HBD 架构在可扩展性、成本和容错能力等方面存在根本性限制 : 以交换机为中心的HBD (如NVIDIA NVL-72) 成本高昂、不易扩展规模;以GPU为中心的HBD (如 Google TPUv3和Tesla Dojo) 存在 严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。 为解决上述问题, 北京大 学、阶跃星辰和曦智科技的研究团队提出了 InfiniteHBD ,这是 一种以光交换模组为中心的高带宽域架构 。 InfiniteHBD 通过将低成本光交换 ( OCS , Optical Circuit Switching ) 能力嵌入每个光电转换模组,实现了数据中心规模的低成本可扩 展性和节点级故障隔离能力。 InfiniteHBD 的单位成本仅为 NVL-72 的 31% , GPU 浪费率接近零 (比 NVL-72 和 TPUv4 ...