华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网·2025-05-20 13:01
针对上述问题, 华为团队 提出了一种高效的负载均衡策略OmniPlacement,通过专家重排、层间冗余部 署和近实时动态调度,显著提升MoE模型的推理性能。 " 基于昇腾算力,华为团队也会在近期全面开源 OmniPlacement,回馈开源社区与开发者。 " 作者丨李希 大火的MoE专家网络,也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语 言模型性能的关键技术,近年来备受瞩目。它通过将输入 token 分配给不同的专家网络,实现了模型的高 效扩展,让模型在处理复杂任务时展现出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中 也面临着严峻挑战,其中负载均衡问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载分布显 著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用,而其他专家(冷专家) 使用率极低,调用频率差距可达一个数量级以上。具体而言,该问题表现为以下几个方面: 负载不均 :部分专家(热专家)被频繁调用,而其他专家(冷专家)使用率 较 低 ,频率差距达到 ...