Workflow
6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
机器之心·2025-09-17 09:37

机器之心发布 Ling Team 早期的关于 MoE Scaling Law(https://arxiv.org/abs/2507.17702)的研究揭示了 MoE 架构设计 scaling 的特性。在此研究工作的指导下,通过极致的架构优 化与训练策略设计,在仅激活 6.1B 参数的前提下,实现了对 40B Dense 模型的性能超越, 用最小激活参数,撬动最大任务性能 。为此,团队在多个维度上 "做减 法" 也 "做加法": 最终结果是: 6.1B 激活参数,带来约 40B Dense 模型的等效性能,实现 7 倍以上的性能杠杆 。 训练成本指数级上升 推理延迟成为落地瓶颈 多数参数冗余,激活效率低 1/32 激活比例:每次推理仅激活 6.1B 参数,计算量远低于同性能 Dense 模型 专家粒度调优:细化专家分工,减少冗余激活 共享专家机制:提升通用知识复用率 sigmoid 路由 + aux-loss free 策略:实现专家负载均衡,避免传统 MoE 的训练震荡 MTP 层、QK-Norm、half-RoPE:在建模目标、注意力机制、位置编码等细节上实现经验最优 机器之心编辑部 今天,蚂蚁百灵大模型团 ...