GPU编程
Search documents
Jim Keller:英伟达“自毁”CUDA护城河
半导体芯闻· 2025-12-09 10:36
如果您希望可以时常见面,欢迎标星收藏哦~ NVIDIA 对其 CUDA 软件堆栈进行了一次重大升级,而标志性的芯片架构师 Jim Keller 认为,这可能标志着该软件独占性的结束。 可以说,迄今为止,在人工智能热潮的推动下,CUDA 在为开发者提供用于创建人工智能工作流程的特定库和框架方面,几乎垄断了 NVIDIA 的 所有市场。据我们所知,没有其他公司能够成功复制如此强大的软件栈。在此基础上,NVIDIA 推出了 CUDA 的一项重大更新——CUDA Tile, 它将传统的 SIMT 方法转变为基于 tile 的方法。我们将在后文中深入探讨这项更新,但芯片架构师 Jim Keller 认为,这或许标志着 CUDA 的护 城河即将终结。 在此次更新之前,CUDA 赋予程序员很大的自主权,让他们可以精细调整诸如图块大小、共享内存中加载的数据以及 GPU 执行所需的计算资源 等参数。但 CUDA Tile 的出现彻底改变了这一切。 NVIDIA 引入了一种基于图块的编程模型和一个名为 Tile IR 的全新底层虚拟机,它将 GPU 视为一个图块处理器。这使得程序员能够将更多精力 集中在核心逻辑上,而不是 GPU ...
英伟达自毁CUDA门槛,15行Python写GPU内核,性能匹敌200行C++
3 6 Ke· 2025-12-08 07:23
GPU编程变天了。 英伟达发布最新版CUDA 13.1,官方直接定性:这是自2006年诞生以来最大的进步。 核心变化是推出全新的CUDA Tile编程模型,让开发者可以用Python写GPU内核,15行代码就能达到200行CUDA C++代码的性能。 消息一出,芯片界传奇人物Jim Keller立即发问: 英伟达是不是亲手终结了CUDA的"护城河"?如果英伟达也转向Tile模型,AI内核将更容易移植到其他硬件上。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的"硅仙人",他的判断在行业里相当有分量。 那么问题来了:CUDA这次到底改了什么?为什么会被认为是"自毁长城"? GPU编程范式从"线程"到"瓦片" 要理解这次更新的意义,得先回顾一下传统CUDA编程有多折磨人。 过去20年,CUDA一直采用SIMT(单指令多线程)模型,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步,每一个细节都 要自己操心。 想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更是需要深厚的经验积累。 CUDA Tile彻底改变了这套玩法: 开发者不再需要 ...
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
量子位· 2025-12-08 04:00
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI GPU编程变天了。 英伟达发布最新版 CUDA 13.1 ,官方直接定性: 这是自2006年诞生以来最大的进步 。 核心变化是推出全新的 CUDA Tile编程模型 ,让开发者可以 用Python写GPU内核 ,15行代码就能达到200行CUDA C++代码的性能。 消息一出,芯片界传奇人物 Jim Keller 立即发问: 英伟达是不是亲手终结了CUDA的"护城河"?如果英伟达也转向Tile模型,AI内核将更容易移植到其他硬件上。 Jim Keller参与设计过AMD Zen架构、苹果A系列芯片、特斯拉自动驾驶芯片的"硅仙人",他的判断在行业里相当有分量。 那么问题来了:CUDA这次到底改了什么?为什么会被认为是"自毁长城"? GPU编程范式从"线程"到"瓦片" 要理解这次更新的意义,得先回顾一下传统CUDA编程有多折磨人。 过去20年,CUDA一直采用 SIMT(单指令多线程)模型 ,开发者写代码时,需要手动管理线程索引、线程块、共享内存布局、线程同步, 每一个细节都要自己操心。 想要充分利用GPU性能,特别是用上Tensor Core这类专用模块,更 ...
刚刚,英伟达CUDA迎来史上最大更新!
机器之心· 2025-12-06 04:08
机器之心报道 机器之心编辑部 几个小时前, NVIDIA CUDA Toolkit 13.1 正式发布, 英伟达官方表示: 「这是 20 年来最大的一次更新。」 这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括: 下面我们就来具体看看。 CUDA Tile CUDA Tile 是 NVIDIA CUDA Toolkit 13.1 最核心的更新。 它是一种基于 tile 的编程模型,能够以更高的层次编写算法,并抽象化专用硬件(例如张量核心)的细 节。 NVIDIA CUDA Tile 的发布, 这是英伟达基于 tile 的编程模型,可用于抽象化专用硬件,包括张量核心。 Runtime API exposure of green contexts (是指把所谓的 Green Context「指轻量级的、可并发调度的上下文或执行环境」暴露给外部调用者使用。) NVIDIA cuBLAS 中的双精度和单精度仿真。 一本完全重写的 CUDA 编程指南 , 专为 CUDA 新手和高级程序员设计。 解读 CUDA Tile 的核心概念 英伟达博客解释说: CUDA Tile 可让开发者在高于 SIMT ...
GPU编程“改朝换代”:英伟达终为CUDA添加原生Python支持,百万用户变千万?
3 6 Ke· 2025-04-08 11:28
今年,英伟达可谓是全力押注,明确表示要确保 Python 成为 CUDA 并行编程框架中的"一等公民"。 多年以来,英伟达为 GPU 开发的 CUDA 软件工具包始终缺少原生 Python 支持,现如今这种情况终于有所转变。在近期的 GTC 大会上,英伟达宣布其 CUDA 工具包将为 Python 提供原生支持并全面与之集成。也就是说,开发人员能够使用 Python 直接在 GPU 上执行算法式计算。 据悉,2025 年被英伟达视为"CUDA Python 元年",这一观点已经在公司内部达成共识,并成为 GTC 大会的核心主题之一。这次发布标志着 Python 在整 个生态系统中的地位进一步提升,而英伟达也在这一领域投入了大量资源。 对于程序员们来说,此举无疑影响巨大。尽管 CUDA 最初是基于 C 和 C++ 开发的,但如今程序员们无需掌握这些编程语言,也能使用该工具包进行开 发。 原生 Python 打开新的大门 过去,尤其是早期,甚至直到一两年前,英伟达主要依赖 C 和 C++ 这类面向系统编程的底层语言作为其主要的编程接口。开发者们通常需要在此基础上 构建 Python 库,实现更高级别的应用。 事实 ...