Retrieval Attention
Search documents
微软研究院路保同:用向量检索重塑模型注意力——Attention
3 6 Ke· 2025-11-17 08:02
在大语言模型中,超长上下文推理能力是影响其性能表现的主要瓶颈之一。 这是由于 Self-attention 的平方复杂度,和 KV 缓存显存先行、随着长度增长而造成的。例如,一个 8B 的模型在推理 1M Token 的上下文时,KV Cache 能 轻轻松松超过 100GB 显存,普通的 GPU 在这种情况下根本跑不动。 基于这一问题,新一篇 Attention 系列访谈文章,聚焦于论文 Retrieval Attention: Accelerating Long-context LLM Inference via Vector Retrieval 所提出的新机 制:一种免训练、用于超长上下文推理的动态稀疏注意力方案。 以下是绿洲与该论文核心的作者之一,微软亚洲研究院资深研究员路保同(Baotong Lu)博士的访谈梳理,全文阅读需要约 20 分钟。 Enjoy Retrieval Attention 的核心观点认为,每个 Query 实际上只需要和一小部分 Key 进行强交互即可,剩下的注意力都是冗余的;而注意力本身,其实也是天 然稀疏的。 因此,研究团队的核心做法是:把大部分 KV 向量从 GPU 下放 ...