Workflow
从“积木堆叠”到“有机生命体”:昇腾超节点重新定义AI算力架构
Huan Qiu Wang·2025-05-26 10:06

【环球网科技报道 记者 张阳】在人工智能加速渗透千行百业的今天,大模型的爆发式增长正推动算力需求进入新纪元。当大模型的参数量越来越大,传统 集群架构虽然可以通过不断叠加来扩展算力,但是各集群之间却受到通信效率的制约,成为大模型训练效率的绊脚石。 一边是各行各业对于AI算力的需求,另一方面在算力供给侧遇到的通信延迟吞噬算力带来的效率瓶颈、居高不下的模型训练成本, 传统集群的困局:从 " 算力堆砌 " 到 " 效率革命 " 的必然跃迁 回顾AI计算的演进历程,传统集群架构的局限性日益凸显。由独立服务器通过以太网堆叠而成的系统,在面对MoE(混合专家模型)等新型大模型时,暴 露出三大核心痛点: 首先是通信瓶颈的指数级恶化。MoE模型将任务拆解为数百个专家并行处理,导致节点间通信量呈几何级增长。传统基于RoCE协议的400G网络,在面对TB 级数据传输需求时,时延高达2ms以上,成为制约训练效率的最大短板。 其次是资源分配的粗放性。传统架构无法感知模型层间计算特征,只能进行静态资源划分。当MoE模型中不同层的专家数量动态变化时,常出现部分节点过 载、部分节点闲置的"冷热不均"现象,导致整体训练效率下降30%以上。 最 ...