GPU内核优化
Search documents
字节清华智能体自动写CUDA内核,比torch.compile加速2.11倍
量子位· 2026-03-03 07:02
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 通讯作者为清华AIR副研究员周浩,共同一作Weinan Dai,Hanlin Wu。 GPU内核优化,强化学习上场了 GPU内核优化门槛一直很高,要求开发者对GPU硬件架构、内存层次、线程调度有深入理解。 同时,模型训练和推理的速度,很大程度上取决于底层CUDA内核写得好不好。 现有的AI辅助方案大体分两类: 一类是无训练的迭代优化,依靠提示词引导模型反复修改代码; 让AI自己写高性能GPU代码,字节Seed与清华AIR团队做到了。 最新开源 CUDA Agent ,在GPU内核优化基准KernelBench上拿下当前最优成绩: Level-1和Level-2的faster rate(相对torch.compile的加速通过率)双双达到100%,最难的Level-3同样达到90%。 并且全面超越单用大模型的方案。 第三部加入反作弊检查,排除那些对不同输入产生常数输出或无法区分输出的任务。 eager运行时间被控制在1毫秒到100毫秒的范围内,与KernelBench高度相似的样本也被移除以降低数据污染风险。 经过层层筛选,最终留下6000个训练样本,命名为 ...