聊一聊目前主流的AI Networking方案
傅里叶的猫·2025-06-16 13:04
2020 年初,一家领先 AI 公司的研究人员遇到了一个在几年前对任何网络工程师而言都荒谬的问 题:他们的旗舰语言模型(最终将为对话式 AI 系统提供动力的类型)训练了三周后,在完成 60% 时突然停滞。数百个 GPU 闲置在多个服务器机架中,消耗云资源的速度让首席财务官们心痛不已。 工程团队的第一反应是检查明显的问题所在:计算利用率?99%。内存使用情况?最佳。存储 I/O? 完全在限制范围内。然而训练过程实际上已冻结,GPU 在等待本应瞬间完成的任务。 事实证明,瓶颈并非数十年来定义计算性能的任何组件, 而是网络 。更具体地说,这个网络设计适 用于计算机偶尔相互通信的场景,而非数千个处理器需要完美同步协调每一次计算的场景。传统数 据中心网络栈(为响应用户请求的 Web 服务器、为应用提供服务的数据库和移动文件的存储系统而 构建)根本无法满足 AI 工作负载对集体通信模式的需求 —— 这是人类应用从未有过的需求。 这不仅是技术问题,更是将重塑整个行业的架构不匹配。AI 工作负载不仅需要更多网络资源,还需 要根本不同的网络架构。而这种差异正是一场竞争革命的种子:它将一个看似 unlikely 的参与者推 向主 ...