昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网·2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...