高可用性

Search documents
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 12:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 11:25
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥 堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应 用,背后都依赖着像 " 超级大脑 " 一样的 AI 算力集群在 24 小时不停运转。 超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节 点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超 时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降 Lane , HCCL 算子重执行,借轨通信,双层路由收敛, Step 级重调度等特性,实现光模块闪断的故障率容 忍度 >99% 。在新增 10 倍 + 光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模 块闪断率低至电链路水平,保障了超平面的可靠性。通过构建 Step 级重调度能力,高频的 HBM 多 比特 ECC 故障恢复时间 缩短至 1min ,对于因为故障造成的用户的算力 损失下降 5% 。 高可用助力业务——万卡集群上千亿模型的线性度和训推快恢 线性度指标用于衡量训练 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 10:18
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 01 高可用核心基础: 面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 ...