建模仿真

Search documents
华为“数字化风洞”小时级预演万卡集群方案,昇腾助力大模型运行“又快又稳”
第一财经· 2025-06-11 12:12
大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、 变速箱(带宽)与路况(任务类型)不匹配,仍会陷入" 龟速" 困局。华为研究团队发现,超过 60% 的算力浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的" 三角 矛盾" (算力 - 带宽 - 容量失衡)前束手无策。 大规模训练集群的利用率黑洞 :大模型训练过程像驾驶中的 " 猛踩油门 " (训练阶段密集计 算), MoE 模型更如混合动力车,需精准平衡计算与内存配比,极致压缩通信占比,稍有不 慎便效率骤降。 动态实时推理系统任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路),推理 阶段硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐 力,在不同任务场景实现动态效率最优。 复杂万卡集群的长稳运行 : 为突破计算 - 内存动态博弈(服务区分配)、异构任务资源争抢 (车祸变道)及硬件耐久性(车道维护)瓶颈,需实现毫秒级资源再平衡与故障容错,保障作 业万级小时无间断运行。 基于仿真能力,通 过 全量部署空间搜索、动态性能感知调度优化等技术释放算力潜能 ,实现并行 配 ...
昇腾“数字化风洞”问世:让AI算力配置从经验驱动迈向建模驱动
21世纪经济报道· 2025-06-11 12:05
大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内 存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入"龟速"困局。华为研究团队发现, 超过60%的算力浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性 的"三角矛盾"(算力-带宽-容量失衡)前束手无策。 三大挑战:动态负载需求下的软硬件博弈 破局之道:"数字化风洞" 在正式开展复杂AI模型的训推之前,可以先在虚拟环境的"数字化风洞"中 "彩排"。比如研发 一个新药筛选模型时,先通过模拟不同的参数、输入和资源分配方案,预测模型在真实场景 的表现,就像电影导演用动画预演复杂镜头。这种 "先模拟后实战" 的方式,能提前发现计算 系统的瓶颈点和逻辑漏洞,并提出相应优化手段,节省大量真实训推的时间和资源。 面对昇腾芯片的异构特性(跑车式高算力 v s 货车式大容量),华为马尔科夫建模仿真团队构 建昇腾"数字化风洞",能够小时级预演万卡集群方案,通过昇腾亲和的性能加速与训推系统 极致高可用,助力大模型运行"又快又稳"。 动静态融合的大规模训练集群建模仿真方法:通过有向无环图的算子组合,灵活表达大 规模AI应用,快速 ...
华为「数字化风洞」小时级预演万卡集群方案,昇腾助力大模型运行「又快又稳」
雷峰网· 2025-06-11 11:00
大模型 训推系统 宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱(内存)、变 速箱(带宽)与路况(任务类型)不匹配,仍会陷入 "龟速"困局。华为研究团队发现,超过60%的算力 浪费在硬件资源错配与系统耦合上,而传统"人拉肩扛"的优化方法在芯片特性的"三角矛盾"(算力-带宽- 容量失衡)前束手无策。 01 三大挑战:动态负载需求下的软硬件博弈 大规模训练集群 的 利用率黑洞 : 大模型训练 过程像驾驶中的 "猛踩油门"( 训练 阶段密集计算) , MoE模型更如混合动力车,需精准平衡计算与内存配比, 极致压缩通信占比, 稍有不慎便效率 骤降。 动态实时 推理系统 任务的两极分化 :从短问答(城市道路)到长文本生成(越野山路), 推理阶 段 硬件需同时满足高吞吐与低延迟,如同要求一辆车兼具超跑的提速能力与越野的持久耐力 ,在不 同任务场景实现动态效率最优 。 复杂万卡集群的 长稳运行: 为 突破 计算 -内存动态博弈 (服务区分配) 、异构任务资源争抢 (车祸变道) 及硬件耐久性 (车道维护) 瓶颈, 需 实现毫秒级资源再平衡与故障容错,保障作业 万级小时无间断运行。 " 业界首次发布昇腾建模仿 ...
训推大模型,为何应该先彩排?
虎嗅APP· 2025-06-11 10:39
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的话 题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 《华为技术披露集》系列 VOL.15 :建模仿真 大模型训推系统宛如一辆精密调校的赛车,即便搭载顶级引擎(高算力芯片),如果油箱 (内存)、变速箱(带宽)与路况(任务类型)不匹配,仍会陷入"龟速"困局。华为研究 ...
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 13:37
万卡集群可用度达到98%,集群秒级快恢(训练+推理)。 编辑丨李希 01 引言 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离 不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断进化到能处理万亿参 数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是把上万台甚至几十万台计算机 像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像精密钟表一样 协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训练中的中断问题?接下来我 们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如何用工程智慧驯服这头算力巨兽。 02 超节点高可用: 24 小时不停工的智能工厂 就像医院的急诊系统必须时刻在线, AI 训练和推理也不能轻易中断。算力集群里每台计算机都有 "备用替 身",当某台机器出现故障(比如突然断电或硬件损坏),系统会立刻启动备用机接管任务,就像接力赛中 接力棒无缝传递,确保自动驾驶训练、语音 ...
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 12:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...