Value-Driven Memory
Search documents
AI写CUDA算子准确率92%,到国产芯片只剩4%?上交方法直线拉升,DeepSeek也适用
机器之心· 2026-03-26 06:47
GPT-5.2 写 CUDA 算子,正确率 92%。同样的模型,给华为 Ascend NPU 写算子,正确率只有 4%。不是模型变笨了,是它压根没见过这类代码。公开数据几乎 为零,专家寥寥无几,编译报错你还看不懂 —— 这就是 "新硬件冷启动" 的真实处境。 上海交大团队的 EvoKernel 不训新模型、不标新数据,而是让大模型像老工程师一样积累经验:每写一次算子,记住什么管用、什么不管用,下次优先调用最有价 值的历史经验。结果:同一个 GPT-5.2,正确率从 4% 拉到 83%,最快的算子比 PyTorch 基线快了 42 倍。不仅如此,团队还将方法拓展到 DeepSeek 最新 mHC 架 构的算子上,同样取得了显著效果。 该方案的早期实践已在昇腾 AI 创新大赛 2025 全国总决赛中斩获初创赛道金奖 ,项目获华为计算·梦想起航种子计划支持。相关团队成员亦在第十九届"挑战 杯"全国揭榜挂帅擂台赛中获得擂主(特等奖第一名)。 算子(Kernel)是大模型直接运行在加速芯片上的底层计算程序 —— 矩阵乘法、卷积、Softmax 等每一个基础运算,都需要一段精细适配硬件的算子代码才能高效 执行,它的调优和 ...