9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!
量子位·2026-02-11 12:49

henry 发自 凹非寺 量子位 | 公众号 QbitAI 最强的大模型,已经把scaling卷到了一个新维度: 百万级上下文 。 几天前,Claude Opus 4.6发布,让人第一次真切感受到了百万上下文的涌现能力—— 单次吃进50万字中文内容、实现跨文档法律分析、多轮Agent规划…… 此情此景,用户火速用脚投票,华尔街更是直接给出K线回应。 与此同时,基于SALA注意力架构的模型 MiniCPM-SALA 也将一并开源。 除此之外,面壁还以OpenBMB社区名义,联合SGLang与NVIDIA发起 2026稀疏算子加速大奖赛(SOAR) ,将这套scaling能力直接交到 开发者手中,推动端侧Agent部署的性能突破。 Linear-Sparse混合注意力架构 太长不看,咱直接说重点—— 面壁这次全新的 线性与稀疏注意力混合架构SALA(Sparse Attention-Linear Attention,SALA) ,究竟是怎么个混合法呢? 简单来说,这套架构将 75%线性注意力(Lightning Attention) 与 25%稀疏注意力(InfLLM v2) 结合,并通过 混合位置编码HyPE ...