Workflow
Arithmetic Intensity
icon
Search documents
烦人的内存墙
半导体行业观察· 2026-02-02 01:33
公众号记得加星标⭐️,第一时间看推送不会错过。 前所未有的无监督训练数据的可用性,以及神经网络的扩展规律,导致用于服务/训练低层逻辑模型 (LLM)的模型规模和计算需求出现了前所未有的激增。然而,主要的性能瓶颈正日益转移到内存 带宽上。 过去20年,服务器硬件的峰值浮点运算能力(FLOPS)以每两年3倍的速度增长,超过了DRAM和互 连带宽的增长速度,后两者分别仅以每两年1.6倍和1.4倍的速度增长。这种差距使得内存而非计算成 为人工智能应用(尤其是服务应用)的主要瓶颈。 本文分析了编码器和解码器Transformer模型,并展示了内存带宽如何成为解码器模型的主要瓶颈。 我们提出重新设计模型架构、训练和部署策略,以克服这一内存限制。 引言 近年来,训练大型语言模型 (LLM) 所需的计算量以每两年 750 倍的速度增长。这种指数级增长趋势 是人工智能加速器发展的主要驱动力,这些加速器致力于提升硬件的峰值计算能力,但往往以牺牲其 他部分(例如内存层次结构)的简化为代价。 然而,这些趋势忽略了训练和服务人工智能模型过程中一个新兴的挑战:内存和通信瓶颈。事实上, 许多人工智能应用的瓶颈并非计算能力,而是芯片内部/芯 ...