DeployMind

Search documents
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 13:05
随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要 方向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模 型参数的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境 下进行训练时,训练效率不足,已成为亟待解决的难题。 实践 表明, MoE模型训练集群的效率面临两方面挑战:(1) 专家并行引入计算和通信等待 , 当 模型规模较大时,需要切分专家到不同设备形成并行( EP),这就引入额外 All-to-All 通信,同时 MoE层绝大部分EP通信与计算存在时序依赖关系, 一般的 串行执行模式 会 导致大量计算单元空闲 , 等待 通信;( 2) 负 载不均引入计算和计算等待 , MoE算法核心是"有能者居之",在训练过 程中会出现 部分热专家被频繁调用,而冷专家使用率较低 ;同时,真实训练数据的长度不一,不同 的模型层(如稀疏层、嵌入层等)的计算量也存在明显差异,造成不同卡之间计算也在互相等待。 形象地说, MoE训练系统就像一个交通拥塞严重的城区:1)人车混行阻塞,所有车辆(计算)必须 等待行人(通 ...
训练MoE足足提速70%!华为只用了3招
量子位· 2025-06-03 06:21
训练效率不足 ,甚至 一半以上训练时间都浪费在"等待"上 。 现在,为了突破MoE的训练瓶颈,华为出手了: 构建了一套名为 Adaptive Pipe & EDPB 的优化方案,开启"上帝视角",让MoE面临"交通拥堵"的训练集群, 实现无等待流畅运行。 MoE大规模训练难题:一半以上的训练时间在等待? 实践已经表明,MoE模型训练集群的效率面临两方面挑战: 首先,是 专家并行引入了计算和通信等待 。 允中 发自 凹非寺 量子位 | 公众号 QbitAI Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。 不过,在高效实现模型参数规模化的同时,MoE的 训练难题 也日益凸显: 当模型规模较大时,需要切分专家到不同设备形成并行(EP),这就引入额外All-to-All通信。 与此同时,MoE层绝大部分EP通信与计算存在时序依赖关系,一般的串行执行模式会导致大量计算单元空闲, 等待通信。 其次, 负载不均会引入计算和计算等待 。 MoE算法核心是"有能者居之",在训练过程中会出现部分热专家被频繁调用,而冷专家使用率较低的情况。 同时,真实训练数据的长度不一,不同的模型层 ...