Workflow
CUDA Agent
icon
Search documents
字节清华智能体自动写CUDA内核,比torch.compile加速2.11倍
量子位· 2026-03-03 07:02
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 通讯作者为清华AIR副研究员周浩,共同一作Weinan Dai,Hanlin Wu。 GPU内核优化,强化学习上场了 GPU内核优化门槛一直很高,要求开发者对GPU硬件架构、内存层次、线程调度有深入理解。 同时,模型训练和推理的速度,很大程度上取决于底层CUDA内核写得好不好。 现有的AI辅助方案大体分两类: 一类是无训练的迭代优化,依靠提示词引导模型反复修改代码; 让AI自己写高性能GPU代码,字节Seed与清华AIR团队做到了。 最新开源 CUDA Agent ,在GPU内核优化基准KernelBench上拿下当前最优成绩: Level-1和Level-2的faster rate(相对torch.compile的加速通过率)双双达到100%,最难的Level-3同样达到90%。 并且全面超越单用大模型的方案。 第三部加入反作弊检查,排除那些对不同输入产生常数输出或无法区分输出的任务。 eager运行时间被控制在1毫秒到100毫秒的范围内,与KernelBench高度相似的样本也被移除以降低数据污染风险。 经过层层筛选,最终留下6000个训练样本,命名为 ...
英伟达护城河被AI攻破,字节清华CUDA Agent,让人人能搓CUDA内核
机器之心· 2026-03-03 02:55
机器之心编辑部 近日,来自 字节跳动 Seed 团队和清华大 学 AIR 的新研究 CUDA Agent ,在 AI 领域引发了不小的轰动。 研究人员训练了一个能够编写快速 CUDA 内核的模型:不只是正确的内核,而是真正经过优化的内核。 在简单/中等内核上,它的性能比 torch.compile 高出 2 倍 ;在复杂内核上,它的性能比 torch.compile 高出约 92% ;即使在最难的设置下,它的性能也比 Claude Opus 4.5 和 Gemini 3 Pro 高出约 40% 。 针对这一矛盾,CUDA Agent 的核心理念简单而巧妙:CUDA 性能并非取决于正确性,而是取决于硬件。线程束、内存带宽、内存冲突——这些只有在性能分析器 中才能看到的东西。 研究人员不再奖励「是否编译成功」,而是奖励实际的GPU速度。真实的性能分析数据。强化学习直接基于性能进行训练。 在此之前,GPT、Claude 等大模型已经能写出「正确」的 CUDA 代码,AI 生成的代码也已获得了一定程度的应用,但能跑通和跑得快完全是两码事。 GPU 内核优化是现代深度学习的基础,但它仍然是一项高度专业化的工作,需要深厚 ...