Scale Up系统

Search documents
大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察
Tai Mei Ti A P P· 2025-08-08 09:57
模型发展的两极化趋势已经愈发明显,一方面,在企业级应用侧,小参数模型成为应用落地的最佳选 择;另一方面,通用大模型的参数正在不断攀升,大模型已经进入了万亿参数时代。 当前,MoE (Mixture of Experts)高效模型架构正在驱动大模型参数规模持续提升,比如采用 MoE混 合专家架构的KIMI K2开源模型,其总参数量达1.2万亿,但每个Token 推理时仅激活32B参数。 算力系统面临挑战 随着模型参数的不断增加,万亿参数模型时代已经到来,无论是KIMI K2,还是GPT、Grok,参数量都 已经发展到万亿阶段,而万亿参数的模型也对算力系统架构提出新的挑战。 首先要面临的就是庞大算力需求。万亿参数模型的训练需要极高的算力支撑。以GPT-3为例,其1750亿 参数的训练量相当于在2.5万张A100 GPU上运行90-100天。万亿参数模型的算力需求可能达到数十倍, 传统计算架构难以满足。 同时,模型并行和数据并行的分布式训练虽能分摊计算压力,但跨节点的通信开销(如梯度同步)会显 著降低算力利用率。例如,GPT-4训练的算力利用率(MFU)仅为32%-36%,主要受限于显存带宽导致 的"内存墙"问题。 ...