cuDNN 库

Search documents
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
3 6 Ke· 2025-08-26 12:41
在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4。 据介绍,在 Backwell 上,FlashAttention-4 的速度比英伟达 cuDNN 库中的注意力核实现快可达 22%! 在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。 有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核 (kernel)比英伟达最新的 cuBLAS 13.0 库快不少。而在标准矩阵算法 A@B 时,两者速度总体是相当的。 一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。 二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。 此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP ...
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
机器之心· 2025-08-26 09:38
在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4 。 机器之心报道 编辑:Panda 在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。 一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。 二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。 此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP 的难度要高出 10 倍,而 CUDA C++ 移植到 ROCm HIP 则更容易。 据介绍,在 Backwell 上,FlashAttention-4 的速度比英伟达 cuDNN 库中的注意力核实现快可达 22%! 有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核(k ...