Workflow
NVIDIA Tensor Core 从 Volta 到 Blackwell 的演进
傅里叶的猫·2025-06-23 15:18

以下文章来源于傅里叶的猫AI ,作者猫叔 傅里叶的猫AI . 傅里叶的猫,防失联。半导体行业分析 推荐大家关注新号:傅里叶的猫AI 好久没写SemiAnalysis的文章了,今天这篇大家应该会比较感兴趣,讲了英伟达GPU架构的技术演进。 原始报告的内容比较多,有33页,这篇文章也只是把核心内容做了整理,想深入研究的读者可以看原始 报告。 性能基本原理 在 AI 和深度学习领域,计算性能的提升至关重要,而性能基本原理为理解这一过程提供了基础框架。 阿姆达尔定律指出,对于固定问题规模,通过增加计算资源实现的最大加速比受限于串行部分。其公式 为 limD1(1S)+Sp=11S\operatorname*{lim}_{D\to\infty}\frac{1}{(1-S)+\frac{S}{p}}=\frac{1}{1-S} 其中 S 是并行工作执行时间, p 是并行可工作的加速比。这意味着即使并行资源无限增加,加速比也只 能趋近于1− S ,因为串行部分的执行时间无法通过并行化减少。 数据移动在性能优化中是一个关键瓶颈,被称为 "cardinal sin"。这是因为从运行时间和缩放角度看,计 算成本相对较低,而数据移动成本高昂。现代 DRA ...