北大袁境阳:稀疏注意力机制让模型 10 倍加速——Attention
3 6 Ke·2026-01-07 07:58

NSA(Native Sparse Attention,即原生稀疏注意力机制)是自然语言处理(NLP)和深度学习模型优化方向上,多次被研究者们讨论和引用的概念,也是 Attention 领域内的关键研究之一。 本次对谈,我们邀请到了和 DeepSeek 梁文锋团队合作,共同撰写 ACL 2025 最佳论文Native Sparse Attention: Hardware-Aligned and Natively Sparse Attention 的第一作者,北京大学计算机学院的袁境阳博士。 当下一代模型需要 128k 或 1M 上下文时,到底哪种注意力机制能生存下来? 如果我们想让模型真正 "记住全部历史",能持续推理几十分钟,Attention 需要被怎样重新调整? 是否存在一种注意力结构,能够在预训练阶段就以稀疏方式工作,同时在推理阶段获得 10× 以上加速且不掉精度? 带着对上述问题的好奇,我们就论文中的创新和思考,与境阳博士展开深度对话。以下是论文创新性研究及深度对谈的部分整理,阅读时间需要约 20 分 钟。 Enjoy 超长上下文能力,正在成为新一代大模型能力的分水岭。 市场要求模型必须能读懂整段代 ...