逆向英伟达GPU,解码芯片龙头的成功奥秘
如果您希望可以时常见面,欢迎标星收藏哦~ GPU 是加速高性能计算(HPC)工作负载的热门平台,广泛应用于人工智能和科学模拟等领 域。然而,学术界的大多数微架构研究仍基于 15 年前的 GPU 核心流水线设计。 本文通过逆向工程剖析了现代英伟达 GPU 核心,揭示了其设计的关键方面,并解释了 GPU 如何利用硬件-编译器协同技术,在执行过程中由编译器引导硬件工作。具体而言,研究揭示 了指令发射逻辑的工作机制,包括发射调度器的策略、寄存器文件及其相关缓存的结构,以 及内存流水线的多个特性。此外,分析了基于流缓冲区的简单指令预取器如何与现代英伟达 GPU 相适配并可能被采用。进一步研究了寄存器文件缓存和寄存器文件读端口数量对模拟准 确性和性能的影响。 通过对这些新发现的微架构细节进行建模,与之前的先进模拟器相比,我们的模型在执行周期的平 均绝对百分比误差(MAPE)降低了18.24%,与实际硬件(英伟达RTX A6000)相比,平均绝对 百分比误差为13.98%。此外,我们证明了该新模型适用于其他英伟达架构,如图灵架构。 最后,研究表明,现代英伟达 GPU 中基于软件的依赖管理机制在性能和面积方面优于传统的基于 ...