Workflow
GQA
icon
Search documents
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 00:24
在大语言模型蓬勃发展的背景下,Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题,成为众多研究试图突破的 重点,但 Transformer 在推理时灵活建模长距离上下文的能力,使得许多线性复杂度的替代方案(如 RNN、Linear Attention、SSM 等)难以真正取代它的地位。 尤其是在大语言模型广泛采用 decoder-only 架构之后,自注意力机制的重要性进一步凸显。然而,这种机制也带来新的挑战:推理过程中每一步都需要访问 Key- Value(KV)缓存,该缓存的大小随着生成序列长度线性增长,逐渐成为影响推理效率的关键瓶颈。随着模型参数维度不断扩大,KV 缓存所需的显存和带宽开销 显著上升,限制了模型的推理长度与可支持的 batch size。 值得一提的是,近期由 DeepSeek 团队提出的 MLA 机制,通过在隐空间维度对 KV 缓存进行压缩,显著提升了推理效率,推动了大模型在低资源场景下的高效部 署。但随着生成序列的持续增长,时间维度的冗余信息也逐渐暴露,压缩其所带来的潜力亟待挖掘。然而,如何在保持性能的前提下压缩时间维度,一直受到增 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...