Workflow
Sim2Infer
icon
Search documents
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 12:12
大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、 变速箱(带宽)与路况(任务类型)不匹配,仍会陷入" 龟速" 困局。华为研究团队发现,超过 60% 的算力浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的" 三角 矛盾" (算力 - 带宽 - 容量失衡)前束手无策。 大规模训练集群的利用率黑洞 :大模型训练过程像驾驶中的 " 猛踩油门 " (训练阶段密集计 算), MoE 模型更如混合动力车,需精准平衡计算与内存配比,极致压缩通信占比,稍有不 慎便效率骤降。 动态实时推理系统任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路),推理 阶段硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐 力,在不同任务场景实现动态效率最优。 复杂万卡集群的长稳运行 : 为突破计算 - 内存动态博弈(服务区分配)、异构任务资源争抢 (车祸变道)及硬件耐久性(车道维护)瓶颈,需实现毫秒级资源再平衡与故障容错,保障作 业万级小时无间断运行。 基于仿真能力,通 过 全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能 ,实现并行 配 ...
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 11:00
大模型 训推系统 宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变 速箱(带宽)与路况(任务类型)不匹配,仍会陷入 "龟速"困局。华为研究团队发现,超过60%的算力 浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的"三角矛盾"(算力-带宽- 容量失衡)前束手无策。 01 三大挑战:动态负载需求下的软硬件博弈 大规模训练集群 的 利用率黑洞 : 大模型训练 过程像驾驶中的 "猛踩油门"( 训练 阶段密集计算) , MoE模型更如混合动力车,需精准平衡计算与内存配比, 极致压缩通信占比, 稍有不慎便效率 骤降。 动态实时 推理系统 任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路), 推理阶 段 硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力 ,在不 同任务场景实现动态效率最优 。 复杂万卡集群的 长稳运行: 为 突破 计算 -内存动态博弈 (服务区分配) 、异构任务资源争抢 (车祸变道) 及硬件耐久性 (车道维护) 瓶颈, 需 实现毫秒级资源再平衡与故障容错,保障作业 万级小时无间断运行。 " 业界首次发布昇腾建模仿 ...
华为版《黑客帝国》首次亮相:训推复杂AI前先“彩排”,小时级预演万卡集群
量子位· 2025-06-11 05:13
训练阶段:类似猛踩油门,但算力、内存、通信如果搭配不当,效率会暴跌; 而数字化风洞在这个过程中起到的作用,就像是一位让AI算力"少踩坑、跑得更快更稳"的智能调度专家。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚, 华为 首次亮相了一套 "虚" 的技术—— 数字化风洞 ,一个在正式训推复杂AI模型之前,可以在电脑中"彩排"的 虚拟环境平台 。 这套有种《黑客帝国》意味般的技术 (都是通过虚拟世界预演现实) ,是由 华为马尔科夫建模仿真团队 构建,可以 小时级预演万卡集群 方案 。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤,是因为华为研究团队发现,超过60%的算力浪费在硬件资源错配与系统耦合 上。 于是,就像汽车设计师用风洞测试新车性能一样,华为通过这个平台在电脑里模拟AI大模型训练和推理的过程,便提前发现问题并优化配 置。 一言蔽之,为的就是 避免浪费时间和算力 。 更具体来看,如果把运行大模型类比成开一辆高性能赛车,那么当下的痛点就主要集中在三点: 并且是对上述三大痛点逐一击破的那种。 Sim2Train:小时级自动寻优 训练大模型这件事可以说是越来越复杂,例如由于参数量越发 ...