华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位·2025-05-20 05:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 昨天的文章已经提到,昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露,果然第二天的技术报告又如期而至了。前情提要: 《华为 +DeepSeek,推理性能创新高!技术报告也公布出来了》 要问最近哪个模型最火, 混合专家模型 (MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的 专家网络 ,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以"雨露均沾"的方式去分配——专家网络们的 负载均衡问题 ,就会显得尤为 突出。 这个问题的根源,是因为某些专家网络总是被频繁调用( 热专家 ),而另一些专家网络则鲜有机会派上用场( 冷专家 )。 没错,MoE里的"专家们"也是有冷热之分的,而且被调用频率的差距甚至可以达到 一个数量级以上! 如此负载不均衡的现象,就会导致整个系统推理的时间被延长,以及还有资源利用率、系统性能受限等问题。 那么此局又该如何破解? 别急, 华为团队 已经给出了 ...