跨平台评测

Search documents
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench
机器之心· 2025-08-25 02:48
当前,这些内核通常由开发者使用 CUDA、AscendC、Pallas 等硬件专用并行编程语言手工编写 —— 这要求开发者具备精湛的性能调优技巧,并对底层硬件架构有 深入理解。 在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 "小型 高性能程序",它负责完成矩阵乘法、卷积、归一化等深度学习的核心算子运算。 近年来,大语言模型(LLM)在代码生成领域的突破,使 "自动生成高性能深度学习内核" 成为新的研究热点。KernelBench、TritonBench 等评测基准相继出现, 主要聚焦于评估 LLM 在 NVIDIA GPU 内核生成上的表现。 已有研究表明,现有 LLM 已具备一定的 GPU 内核生成能力。例如,英伟达工程师基于 DeepSeek-R1 设计了一套工作流程,在简单的 CUDA 内核生成任务中,该 流程生成的内核在数值上全部正确,达到了 100% 的通过率。 然而,当前 AI 加速器架构日趋多样(如 NVIDIA GPU、华为昇腾 NPU、Google TPU、Intel GPU 等),其底 ...