Workflow
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
NvidiaNvidia(US:NVDA) 机器之心·2025-08-26 09:38

在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4 。 机器之心报道 编辑:Panda 在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。 一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。 二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。 此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP 的难度要高出 10 倍,而 CUDA C++ 移植到 ROCm HIP 则更容易。 据介绍,在 Backwell 上,FlashAttention-4 的速度比英伟达 cuDNN 库中的注意力核实现快可达 22%! 有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核(k ...