Nsight Graphics

Search documents
突破 GPU 瓶颈
半导体行业观察· 2025-08-30 02:55
公众号记得加星标⭐️,第一时间看推送不会错过。 来源 :内容编译自 interplayoflight,谢谢 。 GPU利用率和性能改进 深入研究 GPU 的架构,你会发现其核心包含大量的SIMD 单元,这些单元的作用是读取数据,执行矢量或标量 ALU(VALU 或 SALU)运算,并 将结果写入渲染目标或缓冲区。这些单元存在于 Nvidia 所谓的流多处理器 (SM) 和 AMD 所谓的工作组处理器 (WGP) 中。充分利用 SIMD 单元 和 VALU 吞吐量(即保持它们忙于工作)对于提升渲染任务的性能至关重要,尤其是在 GPU 越来越宽、SIMD 单元越来越多的时代。 为了读写其操作的数据,SIMD 单元通过一些"固定功能"单元与 GPU 的其余部分进行交互,例如用于处理数据请求的 TEX 单元、用于存储临时数 据 (VGPR) 的寄存器文件、用于写入渲染目标的 ROP 单元,以及用于存储和读取数据的多个缓存。例如,这是 Blackwell 架构的 SM,展示了 VALU (FP32/INT32) 单元与之交互的一些单元。 固定功能单元由于其工作性质简单而速度很快,但它们仍然可能成为瓶颈,导致 VALU ...