Workflow
昇腾算力集群
icon
Search documents
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 12:54
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 《华为技术披露集》系列 VOL.13 :万卡集群 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这 些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集 ...
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 12:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...