Workflow
Mirage Persistent Kernel(MPK)
icon
Search documents
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 01:33
机器之心报道 编辑:杜伟 在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。 MPK 的易用性很强,你只需要几十行 Python 代码就能将 LLM 编译成一个高性能巨型内核,实现快速推理,整个过程无需 CUDA 编程。 不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需要进一步优化或者寻找更高效的替代方案。 近日,CMU 助理教授贾志豪(Zhihao Jia)团队创新玩法,推出了一个名为 「Mirage Persistent Kernel(MPK)」的编译器,可以自动将 LLM 转化为优化的巨型 内核(megakernel),从而将 LLM 推理延迟降低 1.2 到 6.7 倍。 MPK 将 LLM 推理延迟推近硬件极限。在单个 A100-40GB GPU 上,MPK 将 Qwen3-8B 每个 token 的延迟从 14.5 毫秒 (vLLM/SGLang) 降低到 12.5 毫秒,逼近基于 内存带宽计算得出的 10 毫秒理论下限。 GitHub 地址:https://github.com/mirage-project/mirage/ ...