锐捷网络:公司深度报告:敏锐快捷的ICT大厂,受益智算需求激增
Ruijie Networks (301165) 财信证券·2024-12-22 09:44
6.2 智算中心高性能网络需求增加,高性能交换机有望快速放量 AI 大模型训练需要哪些网络流量:1)第一类是 GPU 之间互相同步梯度和中间激活 的网络流量,它发生在所有 GPU 之间,是一种广播式流量,逻辑上需要所有 GPU 全连 接。2)第二类是 GPU 和存储服务器之间的流量,它仅仅发生在 GPU 和存储服务器之间, 此报告仅供内部客户参考 -20- 请务必阅读正文之后的免责条款部分 公司研究报告 是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。 图 29:AI大模型训练过程中发生的网络流量 资料来源:星融元 其中,第一类 GPU 之间的网络流量与传统数据中心内部流量大不相同,这是由于 AI 大模型训练需要并行训练。当前广泛使用的并行训练模式主要有三类:1)数据并行: 将不同的样本数据分配给不同的 GPU,以加快训练速度,用在主机之间;2)张量并行: 将模型的参数矩阵划分为子矩阵,并分配到不同的GPU上,以解决内存限制并加速计算, 一般用在主机内部;3)流水线并行:将模型分为多个阶段,每个阶段分配给不同的 GPU, 以改善内存利用率和资源效率,一般用在主机之间。 图 30:三种常见并行训练模式 ...