HySparse
Search documents
小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构
量子位· 2026-02-07 10:31
小米Mimo大模型团队投稿 量子位 | 公众号 QbitAI 小米MiMo大模型团队,加入AI拜年战场—— 推出 HySparse,一种面向Agent时代的混合稀疏注意力架构 。 HySparse创新使用极少的全注意力 (Full Attention) 层提供"token选择+KV Cache",其余稀疏注意力 (Sparse Attention) 层直接复 用这些信息,实现高效精准的长上下文建模。 在总共49层的80B-A3BMoE模型实验中, 仅保留5层Full Attention仍能保持甚至提升模型能力,同时显著降低KVCache存储与计算开销 ,实现效果与效率的兼顾,展示出混合稀疏注意力在超长上下文建模中的巨大潜力。 HySparse的设计灵感来源于学术界已有研究工作的经验和观察之上 。 一部分是显著token在相邻层之间相对稳定。 已有工作如TidalDecode等,观察到连续层的 "重要 token" 会高度重合,因此可以在某层识别重要token并在后续层复用。 HySparse将这一观察提升用于模型结构设计并直接训练。 还有部分受启发于跨层KV Cache共享能显著省显存且不显著伤性能 ,YOC ...