Workflow
AI算力
icon
Search documents
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 10:18
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 01 高可用核心基础: 面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 ...
怡 亚 通: 深圳市怡亚通供应链股份有限公司主体及相关债项2025年度跟踪评级报告
Zheng Quan Zhi Xing· 2025-06-10 09:18
信用等级通知书 东方金诚债跟踪评字【2025】0053 号 深圳市怡亚通供应链股份有限公司: 东方金诚国际信用评估有限公司根据跟踪评级安排对贵公司及"22 怡亚 01"、"23 怡亚 01"、"23 怡亚 02"、"23 怡亚 03"、"24 怡亚 01"、"24 怡亚通 MTN001"的信用状况进行了跟踪评级, 经信用评级委员会评定,此次跟踪评级维持贵公司主体信用等级为 AA,评级展望为稳定,同时维持上述债项信用等级为 AAA。 东方金诚国际信用评估有限公司 信评委主任 二〇二五年六月九日 0053 号 东方金诚债跟踪评字【2025】 信用评级报告声明 为正确理解和使用东方金诚国际信用评估有限公司(以下简称"东方金诚")出具的 信用评级报告(以下简称"本报告"),本公司声明如下: 观、公正的关联关系,本次项目评级人员与评级对象之间亦不存在任何影响本次评级 行为独立、客观、公正的关联关系。 分履行了勤勉尽责和诚信义务,有充分理由保证本次评级遵循了真实、客观、公正的 原则。 评级对象和第三方组织或个人的干预和影响。 性、真实性、准确性、完整性均由资料提供方和/或发布方负责,东方金诚按照相关 性、 可靠性、及时性 ...
一字涨停!50万手封单排队等买进!国内算力产业最大合并案落锤!4000亿“国产算力航母”启航!这个板块是中美会议关键议题!
雪球· 2025-06-10 08:39
A股三大指数今日集体回调,截止收盘,沪指跌0.44%,收报3384.82点;深证成指跌0.86%,收报10162.18点;创业板指跌1.17%,收报2037.27点。 板块方面,港口航运股集体大涨;创新药概念股维持强势;美容护理、稀土永磁等板块涨幅居前,华为昇腾、军工、半导体、软件开发等板块跌幅 居前。 沪深两市全天成交额1.42万亿,较上个交易日放量1290亿。 01 中科曙光复牌一字涨停 6月10日,此前因筹划战略重组而停牌的海光信息和中科曙光复牌,中科曙光实现开盘涨停。海光信息也收涨4.4%。 截至收盘,中科曙光涨停板上 仍有50万手封盘排队等买进。 | 中科曙光 | | | ... () | | --- | --- | --- | --- | | 603019 已收盘 06-10 15:00:00 北京 | | | | | 68.09 +6.19 +10.00% | | | 36.32万人加自选 = 2 > CN 融 通 L1 | | 高 68.09 | 开 68.09 | 量 67196.00手 | 总市值 996.30亿 。 | | 低 68.09 额 4.58亿 | 换 0.46% | | 市盈 ...
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 05:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...
山西证券研究早观点-20250610
Shanxi Securities· 2025-06-10 03:24
Group 1: Hubei Yihua (000422.SZ) - Hubei Yihua is a diversified large chemical enterprise with upstream resource advantages and production base layout [5][6] - The company operates in multiple sectors including coal chemical, chlor-alkali chemical, phosphate and fluorine chemical, and fine chemicals. In 2024, revenue from chemical fertilizers, PVC, chlor-alkali products, and other fine chemical products is projected to be 7.65 billion, 4.13 billion, 1.53 billion, and 1.81 billion CNY respectively, accounting for 45.1%, 24.4%, 9.0%, and 10.7% of total revenue [7] - The company ranks third in national fertilizer capacity, fifth in PVC capacity, and second globally in pentanediol capacity [7] - The acquisition of Xinfa Investment will increase the company's coal resource ownership and production capacity, adding 600,000 tons/year of urea, 300,000 tons/year of PVC, and 3 million tons/year of coal [7] - The company expects net profits of 940 million, 1.18 billion, and 1.24 billion CNY for 2025-2027, with corresponding PE ratios of 14.3, 11.3, and 10.8 times [7] Group 2: Shenghong Technology (300476.SZ) - Shenghong Technology is a leading high-end PCB manufacturer with advanced multilayer and HDI board technologies, having established a "soft and hard" product layout through acquisitions [8] - The company has long-term partnerships with major brands such as Nvidia, Tesla, AMD, and Microsoft, which enhances its competitive edge in the PCB market [8] - The PCB industry is expected to grow rapidly due to the explosion in computing power demand and the electrification and intelligence of automobiles, with a projected CAGR of 5.4% from 2024 to 2028, reaching over 90 billion USD by 2028 [8] - The company anticipates net profits of 4.65 billion, 6.58 billion, and 8.15 billion CNY for 2025-2027, with corresponding EPS of 5.39, 7.63, and 9.45 CNY, and PE ratios of 18.6, 13.1, and 10.6 times [8]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 13:37
万卡集群可用度达到98%,集群秒级快恢(训练+推理)。 编辑丨李希 01 引言 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离 不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断进化到能处理万亿参 数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是把上万台甚至几十万台计算机 像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像精密钟表一样 协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训练中的中断问题?接下来我 们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如何用工程智慧驯服这头算力巨兽。 02 超节点高可用: 24 小时不停工的智能工厂 就像医院的急诊系统必须时刻在线, AI 训练和推理也不能轻易中断。算力集群里每台计算机都有 "备用替 身",当某台机器出现故障(比如突然断电或硬件损坏),系统会立刻启动备用机接管任务,就像接力赛中 接力棒无缝传递,确保自动驾驶训练、语音 ...
北交所点评报告:北交所发布北证专精特新指数,开启“双指数”时代
ZHONGTAI SECURITIES· 2025-06-09 13:05
北交所发布北证专精特新指数,开启"双指数"时代 ——北交所点评报告 分析师:冯胜 执业证书编号:S0740519050004 Email:fengsheng@zts.com.cn 分析师:杨帅 业发展,北交所交易热度持续》 2025-05-27 北交所 证券研究报告/行业点评报告 2025 年 06 月 09 日 执业证书编号:S0740524040002 Email:yangshuai01@zts.com.cn | 上市公司数 | 266 | | --- | --- | | 行业总市值(亿元) | 8,250.35 | | 行业流通市值(亿元) | 4,967.15 | 1、《首次修订《北证指数计算与维护 细则》,北证 50 成分迎来调整》 2025-06-04 2、《北证 50 周涨幅超三大指数,国 家级经开区为"投资中国"首选》 2025-06-03 评级: 增持(维持) 报告摘要 北交所发布北证专精特新指数 1)2025 年 6 月 6 日,北交所公告称将联合中证指数公司于 6 月 30 日正式发布北证 专精特新指数,为市场提供多维度投资标的和业绩基准。 2)经流动性筛选后,北证专精特新指数从符合条件 ...
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 12:54
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 《华为技术披露集》系列 VOL.13 :万卡集群 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这 些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集 ...
美国推出稳定币,中国数字货币已应用推广
Tebon Securities· 2025-06-09 09:44
优于大市(维持) 证券分析师 [Table_Main] 证券研究报告 | 行业周报 通信 李宏涛 资格编号:S0120524070003 邮箱:liht@tebon.com.cn 研究助理 市场表现 -20% -10% 0% 10% 20% 29% 39% 49% 59% 2024-06 2024-10 2025-02 通信 沪深300 资料来源:德邦研究所,聚源数据 相关研究 1.《算力卫星与金穹系统,低轨卫星 基础设施加速落地》,2025.6.3 2.《美国对昇腾禁用遭反制,生态竞 赛掀开帷幕》,2025.5.26 3.《美国 BIS 加强 AI 芯片出口管制, 算力供需将向国内回归》,2025.5.19 4.《中美将开始接触,出海产业链预 期向好》,2025.5.10 5.《国内需求回归,国产算力深度布 局》,2025.5.5 通信 2025 年 06 月 09 日 美国推出稳定币,中国数字货币已应 用推广 [Table_Summary] 投资要点: 1. 投资策略 请务必阅读正文之后的信息披露和法律声明 1.1 美国、中国香港更新稳定币政策,加密货币向"正规军"转化。美国推进稳定 币法案,中国香港也随 ...