英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核
机器之心·2026-03-03 02:55

机器之心编辑部 近日,来自 字节跳动 Seed 团队和清华大 学 AIR 的新研究 CUDA Agent ,在 AI 领域引发了不小的轰动。 研究人员训练了一个能够编写快速 CUDA 内核的模型:不只是正确的内核,而是真正经过优化的内核。 在简单/中等内核上,它的性能比 torch.compile 高出 2 倍 ;在复杂内核上,它的性能比 torch.compile 高出约 92% ;即使在最难的设置下,它的性能也比 Claude Opus 4.5 和 Gemini 3 Pro 高出约 40% 。 针对这一矛盾,CUDA Agent 的核心理念简单而巧妙:CUDA 性能并非取决于正确性,而是取决于硬件。线程束、内存带宽、内存冲突——这些只有在性能分析器 中才能看到的东西。 研究人员不再奖励「是否编译成功」,而是奖励实际的GPU速度。真实的性能分析数据。强化学习直接基于性能进行训练。 在此之前,GPT、Claude 等大模型已经能写出「正确」的 CUDA 代码,AI 生成的代码也已获得了一定程度的应用,但能跑通和跑得快完全是两码事。 GPU 内核优化是现代深度学习的基础,但它仍然是一项高度专业化的工作,需要深厚 ...

英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核 - Reportify