OmniPlacement

Search documents
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 11:29
" MoE模型推理面临的3大通信难题,被通信尖子生华为逐一突 破,未来将进一步优化。 " 作者丨李希 大语言模型 (Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至整个社会 的焦点。根据 Scaling law ,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数规模也 在指数级增长。随之而来的,是大语言模型部署形态的变化,从神经网络时代的单卡部署,到稠密模型时 代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家( Mixture of Experts, MoE )模型,它甚至会采用数百卡组成的集群和超节点来部署。 而在这基于集群的大模型推理中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能 让多个计算节点高效配合完成任务。有一些常用集合通信操作,比如全量规约(A ll Reduce)可以想象 成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到一个地方, 进行求和、求平均值等计算。 大模型的推理,就只是算力吗? 在大模型里,多个计算节点可能各自计算了一部分参 ...
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 04:30
作者 | 褚杏娟 "模型开发已经从早期的算法层优化,转向系统工程层面的深度创新。"华为技术专家说道。 如今已经从数字化时代的比特流量转向 Token 经济体系。国内 Token 日消耗量从千亿级跃升至十万亿级,DeepSeek 等头部平台日均处理 6000 亿 Token 的实践,验证了高吞吐、低时延系统的商业价值。 同时,随着模型结构从单一架构探索发展为多模态融合创新,大模型的驱动部署模式发生根本转变。传统单卡部署已无法满足大模型高吞吐、高并发的 需求,分布式集群部署成为新常态。以 ChatGPT 和 DeepSeek 为例,用户规模突破亿级的时间从 1 个月压缩至 7 天,倒逼系统处理能力实现数量级提 升。如何提供更高的吞吐能力、更低的时延成为系统,成为各基础设施厂商的必做题。 DeepSeek 专调 DeepSeek 本身已经在 infra 层做了很多优化,但在企业部署过程中,华为自己也针对 DeepSeek 的模型做了各种优化,帮助企业全面兼容和支持应 用。 大模型训推方案 预训练方面,华为首先完整复现了幻方的 DualPipe 技术(仅开源了框架,没有开源代码),但该方案存在静态显存占用较高的问题。 ...
华为+DeepSeek,终于不再“服务器繁忙”?
虎嗅APP· 2025-05-20 14:00
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域 的深厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 01 大火的MoE专家网络, 也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提 升大语言模型性能的关键技术,近年来备受瞩目。 它通过将输入 token 分配给不同的专家网络,实现了模型的高效扩展,让模型在处理复杂任务时展现 出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中也面临着严峻挑战,其中负载均衡 问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载 分布显著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用, ...
华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网· 2025-05-20 13:01
针对上述问题, 华为团队 提出了一种高效的负载均衡策略OmniPlacement,通过专家重排、层间冗余部 署和近实时动态调度,显著提升MoE模型的推理性能。 " 基于昇腾算力,华为团队也会在近期全面开源 OmniPlacement,回馈开源社区与开发者。 " 作者丨李希 大火的MoE专家网络,也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语 言模型性能的关键技术,近年来备受瞩目。它通过将输入 token 分配给不同的专家网络,实现了模型的高 效扩展,让模型在处理复杂任务时展现出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中 也面临着严峻挑战,其中负载均衡问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载分布显 著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用,而其他专家(冷专家) 使用率极低,调用频率差距可达一个数量级以上。具体而言,该问题表现为以下几个方面: 负载不均 :部分专家(热专家)被频繁调用,而其他专家(冷专家)使用率 较 低 ,频率差距达到 ...
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 05:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 昨天的文章已经提到,昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露,果然第二天的技术报告又如期而至了。前情提要: 《华为 +DeepSeek,推理性能创新高!技术报告也公布出来了》 要问最近哪个模型最火, 混合专家模型 (MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的 专家网络 ,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以"雨露均沾"的方式去分配——专家网络们的 负载均衡问题 ,就会显得尤为 突出。 这个问题的根源,是因为某些专家网络总是被频繁调用( 热专家 ),而另一些专家网络则鲜有机会派上用场( 冷专家 )。 没错,MoE里的"专家们"也是有冷热之分的,而且被调用频率的差距甚至可以达到 一个数量级以上! 如此负载不均衡的现象,就会导致整个系统推理的时间被延长,以及还有资源利用率、系统性能受限等问题。 那么此局又该如何破解? 别急, 华为团队 已经给出了 ...