SonicMoE
Search documents
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍
机器之心· 2025-12-19 06:38
表 1 : MoE 扩展趋势:在此,团队将激活率展示为每个 Token 激活的专家数 K / 专家总数 E ;针对前沿开源模型,专家粒度展示为模型嵌入维度( d ) / 专家中间层大小( n )。在 MoE 稀疏度计算中未包含 共享专家。趋势表明,新的开源 MoE 模型倾向于具备更高的粒度和稀疏度。 然而,这种追求极致粒度和稀疏性的设计导致了严重的硬件效率下降问题: 机器之心编辑部 混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。 近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的 模型质量。 这一趋势在近期的开源模型中表现尤为明显,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等, 它们均采用了更细粒度的专家设计(更小的中间层维度)和更高 的稀疏度,在保持激活参数量不变的同时大幅增加了总参数量。 | Model | Release date | Parameters | Expert activation ratio (K/E) E ...