OmniPlacement - filings, earnings calls, financial reports, news

OmniPlacement

Search documents

雷峰网· 2025-05-22 11:29

" MoE模型推理面临的3大通信难题，被通信尖子生华为逐一突破，未来将进一步优化。 " 作者丨李希大语言模型 (Large Language Models, LLMs) 自从其问世以来，便迅速成为全球科技领域乃至整个社会的焦点。根据 Scaling law ，大语言模型的能力与其参数量的对数正相关，因此大语言模型的参数规模也在指数级增长。随之而来的，是大语言模型部署形态的变化，从神经网络时代的单卡部署，到稠密模型时代的多卡 / 单节点部署，再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家（ Mixture of Experts, MoE ）模型，它甚至会采用数百卡组成的集群和超节点来部署。而在这基于集群的大模型推理中，集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式，能让多个计算节点高效配合完成任务。有一些常用集合通信操作，比如全量规约（A ll Reduce）可以想象成一群工人各自收集了不同区域的建筑材料数据，全量规约就是把所有工人手里的数据汇总到一个地方，进行求和、求平均值等计算。大模型的推理，就只是算力吗？在大模型里，多个计算节点可能各自计算了一部分参 ...

Telecommunications Equipment

Telecommunications Equipment

昇腾

从 DeepSeek 部署看，华为如何让 MOE 架构“迎来”海量“专家”？

AI前线· 2025-05-22 04:30

作者 | 褚杏娟 "模型开发已经从早期的算法层优化，转向系统工程层面的深度创新。"华为技术专家说道。如今已经从数字化时代的比特流量转向 Token 经济体系。国内 Token 日消耗量从千亿级跃升至十万亿级，DeepSeek 等头部平台日均处理 6000 亿 Token 的实践，验证了高吞吐、低时延系统的商业价值。同时，随着模型结构从单一架构探索发展为多模态融合创新，大模型的驱动部署模式发生根本转变。传统单卡部署已无法满足大模型高吞吐、高并发的需求，分布式集群部署成为新常态。以 ChatGPT 和 DeepSeek 为例，用户规模突破亿级的时间从 1 个月压缩至 7 天，倒逼系统处理能力实现数量级提升。如何提供更高的吞吐能力、更低的时延成为系统，成为各基础设施厂商的必做题。 DeepSeek 专调 DeepSeek 本身已经在 infra 层做了很多优化，但在企业部署过程中，华为自己也针对 DeepSeek 的模型做了各种优化，帮助企业全面兼容和支持应用。大模型训推方案预训练方面，华为首先完整复现了幻方的 DualPipe 技术（仅开源了框架，没有开源代码），但该方案存在静态显存占用较高的问题。 ...

华为+DeepSeek，终于不再“服务器繁忙”？

虎嗅APP· 2025-05-20 14:00

HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车，作为代表中国的新兴产业，在世界范围内掀起狂澜。然而主流的MoE架构大模型，却苦于其结构上的"先天不足"：巨大的硬件成本与多重拖累效率的环节，使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。作为作为智能基础设施提供商，华为在这场战役中另辟蹊径，利用其在数学算法和工程领域的深厚积累，为DeepSeek显著提升了效率及用户体验。山就在那里，但中国企业找到了不一样的登顶之路。 01 大火的MoE专家网络，也有冷热不均的问题在人工智能技术日新月异的当下，大语言模型的发展持续突破边界。混合专家模型（MoE）作为提升大语言模型性能的关键技术，近年来备受瞩目。它通过将输入 token 分配给不同的专家网络，实现了模型的高效扩展，让模型在处理复杂任务时展现出更强的能力。然而，如同硬币的两面，MoE 模型在发展过程中也面临着严峻挑战，其中负载均衡问题尤为突出。在混合专家（MoE）模型的推理过程中，专家调用频率的不均衡性，即"冷热专家"现象，导致负载分布显著不均，严重影响系统推理性能。这一问题源于部分专家（热专家）被高频调用， ...

混合专家模型（MoE）

人工智能

Artificial Intelligence

Artificial Intelligence

OmniPlacement

DeepSeek-V3

华为发布OmniPlacement技术，实现超大规模MoE专家最优动态部署，提升昇腾推理系统吞吐10%

雷峰网· 2025-05-20 13:01

针对上述问题，华为团队提出了一种高效的负载均衡策略OmniPlacement，通过专家重排、层间冗余部署和近实时动态调度，显著提升MoE模型的推理性能。 " 基于昇腾算力，华为团队也会在近期全面开源 OmniPlacement，回馈开源社区与开发者。 " 作者丨李希大火的MoE专家网络，也有冷热不均的问题在人工智能技术日新月异的当下，大语言模型的发展持续突破边界。混合专家模型（MoE）作为提升大语言模型性能的关键技术，近年来备受瞩目。它通过将输入 token 分配给不同的专家网络，实现了模型的高效扩展，让模型在处理复杂任务时展现出更强的能力。然而，如同硬币的两面，MoE 模型在发展过程中也面临着严峻挑战，其中负载均衡问题尤为突出。在混合专家（MoE）模型的推理过程中，专家调用频率的不均衡性，即"冷热专家"现象，导致负载分布显著不均，严重影响系统推理性能。这一问题源于部分专家（热专家）被高频调用，而其他专家（冷专家）使用率极低，调用频率差距可达一个数量级以上。具体而言，该问题表现为以下几个方面：负载不均：部分专家（热专家）被频繁调用，而其他专家（冷专家）使用率较低，频率差距达到 ...

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

量子位· 2025-05-20 05:12

金磊发自凹非寺量子位 | 公众号 QbitAI 昨天的文章已经提到，昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露，果然第二天的技术报告又如期而至了。前情提要：《华为 +DeepSeek，推理性能创新高！技术报告也公布出来了》要问最近哪个模型最火，混合专家模型（MoE，Mixture of Experts）绝对是榜上提名的那一个。它的巧妙之处，就在于把不同的任务分配给擅长处理的专家网络，让整个系统性能得以提升。但你知道吗？正是这个关键的专家网络，也是严重影响系统推理性能的因素之一。因为在大量任务来临之际（尤其是超大规模时），MoE并不是以"雨露均沾"的方式去分配——专家网络们的负载均衡问题，就会显得尤为突出。这个问题的根源，是因为某些专家网络总是被频繁调用（热专家），而另一些专家网络则鲜有机会派上用场（冷专家）。没错，MoE里的"专家们"也是有冷热之分的，而且被调用频率的差距甚至可以达到一个数量级以上！如此负载不均衡的现象，就会导致整个系统推理的时间被延长，以及还有资源利用率、系统性能受限等问题。那么此局又该如何破解？别急，华为团队已经给出了 ...

混合专家模型（MoE）

负载均衡问题

Telecommunications Equipment

Telecommunications Equipment

OmniPlacement

昇腾超大规模MoE模型推理部署技术

DeepSeek-V3