Tesla V100 GPU

Search documents
NVIDIA Tensor Core 的演变:从 Volta 到 Blackwell
半导体行业观察· 2025-06-24 01:24
公众号记得加星标⭐️,第一时间看推送不会错过。 来源:内容编译自semianalysis 。 在人工智能和深度学习领域,GPU 计算能力的提升速度远超摩尔定律,年复一年地持续实现着"黄氏 定律"般显著的性能提升。推动这一进步的核心技术正是 Tensor Core。 尽管 Tensor Core 无疑是现代人工智能和机器学习的基石,但即使是许多经验丰富的从业者,对其也 仍未有深入的理解。GPU 架构以及基于该架构的编程模型的快速发展,使得机器学习研究人员和科 学家越来越难以跟上 Tensor Core 的最新变化并理解这些变化的影响。 在本问中,我们将介绍主流数据中心 GPU 的核心特性,首先解释性能工程的重要基本原理。然后, 我们将追溯 Nvidia Tensor Core 架构和编程模型的演变,并重点阐述其演变背后的动机。我们的最 终目标是提供资源,帮助理解 Nvidia 的 GPU 架构,并直观地了解其架构的演变。只有在解释完每 个架构之后,我们才能解释 Blackwell 张量核心及其全新内存层次结构的精妙之处。 需要强调的是,扎实的计算机架构理解能力是理解本文诸多讲解和讨论的先决条件。本文将简要介绍 ...
NVIDIA Tensor Core 从 Volta 到 Blackwell 的演进
傅里叶的猫· 2025-06-23 15:18
以下文章来源于傅里叶的猫AI ,作者猫叔 傅里叶的猫AI . 傅里叶的猫,防失联。半导体行业分析 推荐大家关注新号:傅里叶的猫AI 好久没写SemiAnalysis的文章了,今天这篇大家应该会比较感兴趣,讲了英伟达GPU架构的技术演进。 原始报告的内容比较多,有33页,这篇文章也只是把核心内容做了整理,想深入研究的读者可以看原始 报告。 性能基本原理 在 AI 和深度学习领域,计算性能的提升至关重要,而性能基本原理为理解这一过程提供了基础框架。 阿姆达尔定律指出,对于固定问题规模,通过增加计算资源实现的最大加速比受限于串行部分。其公式 为 $$\operatorname*{lim}_{D\to\infty}\frac{1}{(1-S)+\frac{S}{p}}=\frac{1}{1-S}$$ 其中 S 是并行工作执行时间, p 是并行可工作的加速比。这意味着即使并行资源无限增加,加速比也只 能趋近于1− S ,因为串行部分的执行时间无法通过并行化减少。 数据移动在性能优化中是一个关键瓶颈,被称为 "cardinal sin"。这是因为从运行时间和缩放角度看,计 算成本相对较低,而数据移动成本高昂。现代 DRA ...