DeltaNet
Search documents
再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客
晚点LatePost· 2025-12-02 09:13
以下文章来源于晚点科技 ,作者晚点团队 晚点科技 . 见证奇点来临 不仅是提升效率,线性注意力在数据受限情况下也可能提升效果。 访谈 丨 程曼祺 整理 丨 姚一楠 注意力机制(Attention)是 Transformer 架构大型语言模型(LLM)的核心机制,它决定了模型如何 处理、理解海量的文本信息。然而,传统全注意力机制的计算开销会随文本长度呈平方级暴增,这正 是限制模型处理长文档、长上下文的关键瓶颈。 今年初,《晚点聊》的 103 期和 104 期节目分别讨论了注意力机制改进的两个主要方向:"稀疏注意 力" 和 "线性注意力"。(文字版见《 大模型 "注意力简史":与两位 AI 研究者从 DeepSeek、Kimi 最 新改进聊起 》和《 3700 次预训练寻找 "线性注意力" 非共识,MiniMax-01 开发者讲述 4 年探索 》) 这期节目,我们继续关注线性注意力的新进展。在 9 月和 10 月底,阿里巴巴和月之暗面先后开源 Qwen3-Next 和 Kimi Linear 模型,其中的注意力机制都使用了线性注意力 DeltaNet 和 full attention (传统的全注意力)混合的方式 ...