Workflow
大模型训推
icon
Search documents
华为云:CloudMatrix384突破大模型训推瓶颈,加速行业智能化跃迁
Sou Hu Cai Jing· 2025-06-24 11:58
6月21日,华为开发者大会2025期间,以"CloudMatrix384昇腾AI云服务,算力聚变加速行业AI创新"为主题的高峰论坛顺利举办,四位来自不 同领域的AI先行者,与近200位开发者深度对话,从技术内核到场景落地,全面解析基于CloudMatrix384超节点的新一代昇腾AI云服务如何破 解AI算力、运力、存力瓶颈,成为行业智能化跃迁的核心引擎。 高密、高速、高效,重建大模型时代的AI基础设施新标准 当前,AI大模型正以指数级速度进化,模型参数突破千亿、万亿级,传统算力架构的"算力墙""通信墙""存储墙"已成为制约行业创新的核心痛 点。华为云公有云解决方案部CTO刘赫伟在峰会上指出:"大模型的爆发式发展,本质是对算力、运力、存力的全维度挑战。基于 CloudMatrix384超节点的昇腾AI云服务,已成为突破算力、运力、存力瓶颈的AI基础设施新标准。" CloudMatrix384昇腾AI云服务,通过"硬件重构+软件智能"的深度融合,打造出高密、高速、高效的AI-Native基础设施: • 高密:超节点级联,构建"超级AI服务器" CloudMatrix384昇腾AI云服务创新性地将384颗昇腾NPU ...
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 11:00
大模型 训推系统 宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变 速箱(带宽)与路况(任务类型)不匹配,仍会陷入 "龟速"困局。华为研究团队发现,超过60%的算力 浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的"三角矛盾"(算力-带宽- 容量失衡)前束手无策。 01 三大挑战:动态负载需求下的软硬件博弈 大规模训练集群 的 利用率黑洞 : 大模型训练 过程像驾驶中的 "猛踩油门"( 训练 阶段密集计算) , MoE模型更如混合动力车,需精准平衡计算与内存配比, 极致压缩通信占比, 稍有不慎便效率 骤降。 动态实时 推理系统 任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路), 推理阶 段 硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力 ,在不 同任务场景实现动态效率最优 。 复杂万卡集群的 长稳运行: 为 突破 计算 -内存动态博弈 (服务区分配) 、异构任务资源争抢 (车祸变道) 及硬件耐久性 (车道维护) 瓶颈, 需 实现毫秒级资源再平衡与故障容错,保障作业 万级小时无间断运行。 " 业界首次发布昇腾建模仿 ...
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 04:30
作者 | 褚杏娟 "模型开发已经从早期的算法层优化,转向系统工程层面的深度创新。"华为技术专家说道。 如今已经从数字化时代的比特流量转向 Token 经济体系。国内 Token 日消耗量从千亿级跃升至十万亿级,DeepSeek 等头部平台日均处理 6000 亿 Token 的实践,验证了高吞吐、低时延系统的商业价值。 同时,随着模型结构从单一架构探索发展为多模态融合创新,大模型的驱动部署模式发生根本转变。传统单卡部署已无法满足大模型高吞吐、高并发的 需求,分布式集群部署成为新常态。以 ChatGPT 和 DeepSeek 为例,用户规模突破亿级的时间从 1 个月压缩至 7 天,倒逼系统处理能力实现数量级提 升。如何提供更高的吞吐能力、更低的时延成为系统,成为各基础设施厂商的必做题。 DeepSeek 专调 DeepSeek 本身已经在 infra 层做了很多优化,但在企业部署过程中,华为自己也针对 DeepSeek 的模型做了各种优化,帮助企业全面兼容和支持应 用。 大模型训推方案 预训练方面,华为首先完整复现了幻方的 DualPipe 技术(仅开源了框架,没有开源代码),但该方案存在静态显存占用较高的问题。 ...