Workflow
算力集群
icon
Search documents
新紫光三周年|新紫光集团赋能新华三,扬帆智能新时代
Huan Qiu Wang· 2025-07-11 01:51
【环球网科技综合报道】从2022到2025,新紫光集团重组焕新的这三年恰逢全球智能化热潮奔涌、数字 中国建设加速的关键窗口期。正是在这风云激荡的三年间,在新紫光集团的坚定支持下,新华三集团完 成了一次华丽的智变跃迁—— 从数字化解决方案提供者成长为数字化及 AI 解决方案领导者。 一次品牌焕 新,三年战略深耕,新紫光集团以资源聚合与生态重构为支点,撬动新华三集团在方兴未艾的智能新时 代进一步筑牢数字化及AI解决方案领导者地位。 在智算基础设施领域,新华三持续深化"AI in ALL"技术战略,依托全新一代智算产品,持续塑造智算 领域全产业链布局优势:推出基于DDC架构(Diversified Dynamic-Connectivity,多元动态联接)的新 一代无损网络解决方案及算力集群核心交换机S12500AI系列,可高效支撑千卡至万卡级别的高速无损 算力集群互联,带宽利用率提升107%;加速CPO技术规模商用,800G CPO光电共封装交换机S9827系 列已经成功应用于头部互联网企业的大型数据中心网络场景,为高性能AI计算提供高带宽、低延迟的 网络支撑;实现64卡高速互联超节点算力集群落地部署,相比8台8卡 ...
新疆加快布局算力基础设施(新视点)
Ren Min Wang· 2025-07-08 22:19
Group 1 - The core viewpoint of the articles highlights the rapid development of the computing power industry in Xinjiang, particularly in Karamay, which is becoming a new hub for computing power investment due to its unique geographical advantages and resource endowments [1][2][3] - Karamay's carbon and water-cooled data center utilizes a special insulating oil for cooling, achieving energy consumption that is only one-sixth of traditional data centers, resulting in a significant reduction of carbon emissions by tens of thousands of tons of standard coal annually [1] - The city plans to expand its computing power capacity significantly, with a target of exceeding 100,000 P by leveraging its abundant green energy resources from wind and solar power [2][3] Group 2 - Xinjiang's total installed power capacity has reached 201 million kilowatts, ranking fifth in the country, with renewable energy capacity exceeding 112 million kilowatts, accounting for 55.72% of the total power capacity [3] - Various regions in Xinjiang are accelerating the construction of computing power clusters, with plans to add 10,000 P of computing power during the 14th Five-Year Plan period [3] - The establishment of multiple data center projects, such as the China Mobile Karamay Cloud Computing Intelligent Center, is expected to enhance the computing power scale to over 17,000 P by the end of 2024, with 80% of the services aimed at eastern regions and overseas enterprises [2]
凤岗武江对口帮扶:派出逾百名干部,投入约7亿资金
Nan Fang Du Shi Bao· 2025-06-28 15:31
6月26日至27日,东莞市凤岗镇党委副书记、镇长韩俊峰率凤岗镇党政代表团赴韶关市武江区,通过实地考察、座谈交流等形式,总结评估凤岗武江新一 轮对口帮扶协作助力武江"百千万工程"三年的阶段性成果,查找不足,补齐短板,进一步凝聚两地共识,汇聚发展合力,推动凤岗武江对口帮扶协作向更 高质量、更深层次迈进。 据了解,今年是凤武两地携手共进的第9个年头,也是新一轮对口帮扶协作的第3年,凤岗累计派出100多名帮扶干部人才,投入约7亿元帮扶资金,在产业 合作、乡村振兴、民生改善等诸多领域取得了显著成效。 在产业合作方面:新一轮对口帮扶协作广受关注的"双子星"项目——凤武大厦、"反向飞地"凤武产业合作园,可为武江区增加近2亿元资产,每年增创集 体收入超550万元。 (文章来源:南方都市报) 凤安楼(全倒户安置楼)。 在招商引资方面:坚持"大招商、招大商"原则,派出帮扶干部纳入韶关驻京津冀招商工作队,成功引进北京猿界云计算等12家生态企业组团到韶考察。其 中,北京猿界云计算科技有限公司大数据产业项目在6月13日举行的第四届粤港澳大湾区(广东)算力产业大会暨第三届中国算力网大会上签约,5年内总 投资额达80亿元,主要用于投资机房 ...
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 12:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 11:25
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥 堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应 用,背后都依赖着像 " 超级大脑 " 一样的 AI 算力集群在 24 小时不停运转。 超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节 点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超 时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降 Lane , HCCL 算子重执行,借轨通信,双层路由收敛, Step 级重调度等特性,实现光模块闪断的故障率容 忍度 >99% 。在新增 10 倍 + 光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模 块闪断率低至电链路水平,保障了超平面的可靠性。通过构建 Step 级重调度能力,高频的 HBM 多 比特 ECC 故障恢复时间 缩短至 1min ,对于因为故障造成的用户的算力 损失下降 5% 。 高可用助力业务——万卡集群上千亿模型的线性度和训推快恢 线性度指标用于衡量训练 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 05:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 12:54
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 《华为技术披露集》系列 VOL.13 :万卡集群 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这 些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集 ...
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 12:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...
传奇“清华EE85班”走出AI芯片独角兽,燧原科技估值160亿拟冲击IPO
Sou Hu Cai Jing· 2025-05-20 02:28
瑞财经 吴文婷近日,上海燧原科技股份有限公司(以下简称"燧原科技")披露IPO辅导工作进展情况报 告(第三期),辅导机构为中国国际金融股份有限公司(以下简称"中金公司") 。 值得一提的是,燧原科技的创始人赵立东,出自传奇"清华EE85班"。要知道,在中国芯片领域,清华 大学无线通信系85级EE85班,极富传奇色彩。 "中国芯片首富"韦尔股份创始人虞仁荣、兆易创新创始人之一舒清明、格科微创始人赵立新、长江存储 董事长赵伟国、卓胜微创始人之一冯晨晖等许多芯片、传感器领域的风云人物都出自这里。 据公开资料显示,从EE85毕业后,赵立冬去美国犹他州立大学攻读电子与计算机,然后去了以芯片闻 名于世的硅谷。 | 2024 年 | | | 燧原科技 | 0 | | --- | --- | --- | --- | --- | | 排名 | 亚亚伯值 | 企业信息 | 掌门人 / 联合创始人 | 行业 | | No. 482 | ¥ 160 亿 | 燧原科技 | 赵立东 | 人工智能 | 据了解,燧原科技于2024年8月26日启动IPO辅导,而本期辅导时间为2025年1月1日至2025年3月31日。 公开资料显示,燧原科技专 ...