FlashAttention - filings, earnings calls, financial reports, news

FlashAttention

Search documents

AI前线· 2025-07-13 04:12

采访 | 霍太稳整理 | 宇琪编辑 | Tina、蔡芳芳在人工智能迈向"多模态智能体"新时代的过程中，视觉理解的超高维度、空间智能的建模难题，以及将感知、认知与行动高效整合的挑战，仍如横亘在前的巨大鸿沟。如何让智能体真正实现"看懂、想透、做好"？当前最具可行性的应用突破口是什么？在 6 月 27-28 日于北京举办的 AICon 全球人工智能开发与应用大会上，InfoQ 现场特别专访了 IDEA 研究院计算机视觉与机器人研究中心讲席科学家张磊。他在采访中剖析了从"半结构化"场景切入的务实落地路径，分享了在工业界如何平衡前沿探索与产品落地的独到见解，并对年轻一代如何在 AI 浪潮中筑牢根基、找准方向给出了恳切建议。 InfoQ：在实现智能体能够真正"看懂、想透、做好"的过程中，您认为哪些基础问题往往被忽视、但实际上至关重要？部分精彩观点如下： AICon 全球人工智能开发与应用大会将于 8 月 22-23 日首次落地深圳！本次大会以 "探索 AI 应用边界" 为主题，聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自头 ...

多模态智能体

空间智能

具身智能

Artificial Intelligence

Artificial Intelligence

GPT

FlashAttention

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

机器之心· 2025-06-18 09:34

随着大型模型需要处理的序列长度不断增加，注意力运算（Attention）的时间开销逐渐成为主要开销。此前，清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中，比如 Vidu，CogvideoX，Mochi，Wan，HunyuanVideo，Flux，Llama3，Qwen 等。近日，清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子（ SageAttention3 ）。实现了 5 倍相比于 FlashAttention 的即插即用的推理加速（此前的 SageAttention V1/V2/V2++ 分别达到了 2.1，3，3.9 倍的加速效果），比如在 RTX 5090 上，SageAttention3 达到了 1040 TOPS 的速度，甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍！SageAttention3 在多种视频和图像生成等大模型上（包括 Hunyua ...

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

量子位· 2025-06-01 03:40

一水发自凹非寺量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ，刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。在保持模型性能不变的情况下，将解码速度和吞吐量最高提升2倍，大大优化了模型的长上下文推理能力。这项研究的三位作者均来自普林斯顿大学，论文主要有两大贡献：其一，提出Grouped-Tied Attention（GTA），与已集成到LLaMA 3的注意力机制GQA质量相当，但KV缓存用量减少约50%。其二，提出Grouped Latent Attention（GLA），与DeepSeek所使用的注意力机制MLA质量匹配，但解码速度更快，某些情况下比 FlashMLA快2倍。按照作者之一Ted Zadouri的总结： GTA是GQA的有效替代品，而GLA是MLA的实用替代品。一言以蔽之，通过优化注意力机制的内存使用和计算逻辑，在不牺牲模型生成质量的前提下，可显著提升大语言模型的推理效率和硬件资源利用率，尤其在长上下文场景中优势更为突出。相关论文公布后，一众研究者也赶来祝贺~ | Sara Hooker ...

Grouped-Tied Attention（GTA）

Grouped Latent Attention（GLA）

Grouped-Tied Attention（GTA）

Grouped Latent Attention（GLA）

大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起

晚点LatePost· 2025-03-02 06:10

嘉宾丨肖朝军、傅天予整理丨程曼祺上周，DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果，分别是 NSA、MoBA。二者都聚焦对大模型中 "注意力机制" 的改进。 o 1 、 R 1 等推理模型的出现，给了长文本新课题。注意力机制是当前大语言模型（LLM）的核心机制。2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文，标题就是：Attention Is All You Need（注意力就是你所需要的一切）。而优化 Attention 的计算效率和效果，又能帮助解决 AI 学界和业界都非常关心的一个问题，就是长文本（long context）。不管是要一次输入一整本书，让模型能帮我们提炼、理解；还是在生成现在 o1、R1 这类模型需要的长思维链；又或者是希望模型未来能有越来越长的 "记忆"，这都需要长文本能力的支持。这期节目我们邀请了两位做过 Attention 机制改进的 AI 研究者做嘉宾。一位是清华计算机系自然语言处理实验室的博士生肖朝军，他是 InfLLM 注意力机制改进的一作，导师是清华计算机系副教授 ...

Artificial Intelligence

Artificial Intelligence

NSA