HySparse - filings, earnings calls, financial reports, news

HySparse

Search documents

量子位· 2026-02-07 10:31

小米Mimo大模型团队投稿量子位 | 公众号 QbitAI 小米MiMo大模型团队，加入AI拜年战场—— 推出 HySparse，一种面向Agent时代的混合稀疏注意力架构。 HySparse创新使用极少的全注意力（Full Attention）层提供"token选择+KV Cache"，其余稀疏注意力（Sparse Attention）层直接复用这些信息，实现高效精准的长上下文建模。在总共49层的80B-A3BMoE模型实验中，仅保留5层Full Attention仍能保持甚至提升模型能力，同时显著降低KVCache存储与计算开销，实现效果与效率的兼顾，展示出混合稀疏注意力在超长上下文建模中的巨大潜力。 HySparse的设计灵感来源于学术界已有研究工作的经验和观察之上。一部分是显著token在相邻层之间相对稳定。已有工作如TidalDecode等，观察到连续层的 "重要 token" 会高度重合，因此可以在某层识别重要token并在后续层复用。 HySparse将这一观察提升用于模型结构设计并直接训练。还有部分受启发于跨层KV Cache共享能显著省显存且不显著伤性能，YOC ...