Workflow
内存密集型内核
icon
Search documents
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
量子位· 2025-07-11 06:16
西风 发自 凹非寺 量子位 | 公众号 QbitAI 无需CUDA代码,给H100加速33%-50% ! Flash Attention、Mamba作者之一 Tr i Da o 的新作火了。 他和两位普林斯顿CS博士生提出了 一个名叫 QuACK 的新SOL内存绑定内核库 ,借助CuTe-DSL,完全用Python写,一点CUDA C++代码 都没用到。 在带宽3TB/s的H100上,它的速度比像PyTorch的torch.compile、Liger这类已经过深度优化的库还要快33%-50%。 Tri Dao表示,让内存密集型的内核达到"光速"并非什么神秘技巧,只需把几个细节处理到位就行。 我很喜欢Phil Tillet对不同工具在生产力和性能方面各有取舍的观点,比如torch compile、triton、CUDA、PTX。 但CuTe-DSL以及类似的基于Python的DSL或许能改变这一局面,虽然目前还处于早期阶段。而且,说不定很快我们就能让大语言模型 来生成这些内核了! 新作一经发出,吸引不少大佬关注。 英伟达CUTLASS团队资深架构师Vijay 转发,自夸他们团队做的CuTe-DSL把各种细节都打 ...