内存密集型内核 - filings, earnings calls, financial reports, news - Reportify

内存密集型内核

Search documents

无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

量子位· 2025-07-11 06:16

西风发自凹非寺量子位 | 公众号 QbitAI 无需CUDA代码，给H100加速33%-50% ！ Flash Attention、Mamba作者之一 Tr i Da o 的新作火了。他和两位普林斯顿CS博士生提出了一个名叫 QuACK 的新SOL内存绑定内核库，借助CuTe-DSL，完全用Python写，一点CUDA C++代码都没用到。在带宽3TB/s的H100上，它的速度比像PyTorch的torch.compile、Liger这类已经过深度优化的库还要快33%-50%。 Tri Dao表示，让内存密集型的内核达到"光速"并非什么神秘技巧，只需把几个细节处理到位就行。我很喜欢Phil Tillet对不同工具在生产力和性能方面各有取舍的观点，比如torch compile、triton、CUDA、PTX。但CuTe-DSL以及类似的基于Python的DSL或许能改变这一局面，虽然目前还处于早期阶段。而且，说不定很快我们就能让大语言模型来生成这些内核了！新作一经发出，吸引不少大佬关注。英伟达CUTLASS团队资深架构师Vijay 转发，自夸他们团队做的CuTe-DSL把各种细节都打 ...

GPU内核开发

内存密集型内核

GPU内核开发

内存密集型内核