以网强算,破局万亿模型训推瓶颈——新华三超节点打造AI基础设施新范式
以网强算,超节点技术带来的大模型训推效率跃升 在经历百模大战后的商用落地阶段,各大模型厂商在实现技术落地之外的首要考量便是每Token成本。 虽然目前单台服务器内已经可以基于OAM标准实现最高8卡GPU的直接互联,但更大规模的算力需求下 还是要依靠跨节点的Scale-out方式进行集群组网,在动辄百卡、千卡级的大模型训推需求下,巨大的通 信开销会造成算力利用率的大幅下降,大量GPU的等待和空转使得传统组网在整体训推效率表现上显得 越发吃力。因此,依靠Scale-up技术实现GPU多卡全互联的超节点产品,成为破局智算效率瓶颈的最优 解。 在万亿级参数量成为常态的当下,大模型训练阶段数据的传输量和传输频率激增,同时,张量并行、专 家并行等训练模式以及超长序列多模态等技术场景也对GPU之间的带宽和时延提出了极高要求。基于 Scale-up的节点内互联能够实现每个GPU之间的直接高速通信,相比跨节点的通信提高数倍带宽,从而 大幅提升GPU利用效率,减少GPU空闲;同时,超高带宽、超低时延的互联网络,能够有效打破通信 墙,大幅缩减以传统多机多卡方式布局训练的通信开销,真正实现以网强算。 来源:环球网 摘要:面对万亿级大 ...