算力集群

Search documents
100亿美元!马斯克,融到了“续命钱”
Zheng Quan Shi Bao Wang· 2025-07-02 13:14
100亿美元融资过程波折不断 马斯克的xAI,又可以继续在AI牌桌上"烧钱"了。 据摩根士丹利日前在社交媒体平台X上的最新声明,马斯克旗下的人工智能创业公司xAI已完成总计100 亿美元的新一轮融资,其中包括50亿美元债务融资和50亿美元股权融资。这是xAI继去年12月60亿美元 融资后的又一轮大额融资,目前xAI总融资额已超200亿美元。 在本轮融资中,摩根士丹利担任了50亿美元债务融资的顾问,并表示其债务融资获得超额认购,吸引了 全球债务投资者参与。摩根士丹利在推文中强调,xAI还另外获得了50亿美元战略股权融资,"债务与股 权组合有效降低综合资本成本,大幅拓展xAI的可融资渠道"。 "股+债"组合拳的设计,一方面降低了整体资金成本,另一方面又避免了股权过度稀释。其债务融资获 超额认购,表明即使在马斯克与美国总统特朗普关系破裂后,投资者依然向马斯克投了"信任票"。 业内人士分析称,这种组合的核心是平衡短期现金流与长期股权价值:债权端扛住"烧钱压力",股权端 则绑定顶级资源,为长期投入注入"稳定弹药",支撑xAI的"算力军备赛"。 不过,虽然融资最终顺利完成,但过程却波折不断。 xAI此次急切融资,背后是" ...
奥瑞德: 奥瑞德股票交易异常波动公告
Zheng Quan Zhi Xing· 2025-06-30 16:35
证券代码:600666 证券简称:奥瑞德 公告编号:临2025-028 奥瑞德光电股份有限公司 股票交易异常波动公告 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者 重大遗漏,并对其内容的真实性、准确性和完整性承担法律责任。 重要内容提示: 行业政策未发生重大调整。经公司董事会自查并向公司控股股东青岛智算信息产业发 展合伙企业(有限合伙)(以下简称"青岛智算")函证,除已披露的事项外,截至 本公告披露之日,公司及公司控股股东青岛智算不存在应披露而未披露的重大信息。 化、公司运营人才及业务经验等因素的影响,业绩存在重大不确定性,请投资者注意 相关业务业绩风险。 质押并全部被司法冻结,对于左洪波、褚淑霞业绩补偿股份的追索存在重大不确定性。 同时,左洪波、褚淑霞因其他债务纠纷个人资产权利受限,业绩承诺补偿现金的追索 亦存在重大不确定性。 投资人已发生减持行为,后续仍有可能继续减持,请广大投资者注意投资风险。 请广大投资者注意二级市场交易风险,理性决策,审慎投资。 一、股票交易异常波动具体情况 公司股票交易于 2025 年 6 月 26 日、2025 年 6 月 27 日、2025 年 6 月 ...
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 12:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 11:25
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥 堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应 用,背后都依赖着像 " 超级大脑 " 一样的 AI 算力集群在 24 小时不停运转。 超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节 点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超 时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降 Lane , HCCL 算子重执行,借轨通信,双层路由收敛, Step 级重调度等特性,实现光模块闪断的故障率容 忍度 >99% 。在新增 10 倍 + 光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模 块闪断率低至电链路水平,保障了超平面的可靠性。通过构建 Step 级重调度能力,高频的 HBM 多 比特 ECC 故障恢复时间 缩短至 1min ,对于因为故障造成的用户的算力 损失下降 5% 。 高可用助力业务——万卡集群上千亿模型的线性度和训推快恢 线性度指标用于衡量训练 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 10:18
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 01 高可用核心基础: 面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 ...
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 05:16
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认 的顶尖技术挑战。 但是,在 华为 ,昇腾万卡算力集群,已经可以做到近乎 "永不罢工" 了: 或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗? 关于这一切背后的秘密,华为在今天首次把技术给公开了出来。 高可用的核心:三套"智能保险系统" 答案是肯定的,需要,且有必要。 因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成 百上千的CT照片。 这些看似简单的智能应用,其实都离不开如 "超级大脑" 般的AI算力集群,需要它们全天候不停歇地运转着。 而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。 更严格来说,AI推理的可用度甚至还需要 达到99.95%的程度。 那么华为又是如何做到这点的? AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。 要解 ...
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 13:37
万卡集群可用度达到98%,集群秒级快恢(训练+推理)。 编辑丨李希 01 引言 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这些能力背后离 不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断进化到能处理万亿参 数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是把上万台甚至几十万台计算机 像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像精密钟表一样 协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训练中的中断问题?接下来我 们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如何用工程智慧驯服这头算力巨兽。 02 超节点高可用: 24 小时不停工的智能工厂 就像医院的急诊系统必须时刻在线, AI 训练和推理也不能轻易中断。算力集群里每台计算机都有 "备用替 身",当某台机器出现故障(比如突然断电或硬件损坏),系统会立刻启动备用机接管任务,就像接力赛中 接力棒无缝传递,确保自动驾驶训练、语音 ...
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 12:54
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 我们期待通过本系列内容,携手更多伙伴共同构建开放协作的生态系统,助力昇腾生态在中 国的蓬勃发展。 《华为技术披露集》系列 VOL.13 :万卡集群 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译、甚至帮医生看 CT 片,这 些能力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集 ...
让算力航母稳健远航,华为首次披露昇腾算力基础设施的压舱石
21世纪经济报道· 2025-06-09 12:08
( 3 ) Sim2Av a il abilit y高可用建模仿真: 马尔科夫高可用建模仿真框架,通过离散时间步长 仿真,建模单步时长内的故障性能劣化影响与恢复耗时,模拟复杂系统训练任务中的故障场 景及运维响应,实现对训练过程性能表现与故障恢复状态的全周期监控仿真。 建模仿真:算力底座的"数字化风洞" 框架迁移:给模型跑车换更酷炫轮胎 总结与展望 你是否注意到,现在的 AI 越来越 "聪明" 了?能写小说、做翻译,甚至帮医生看 CT 片,这些能 力背后离不开一个默默工作的 "超级大脑工厂"——AI 算力集群。随着人工智能从简单规则判断 进化到能处理万亿参数的大模型,单台计算机的算力就像小舢板面对汪洋大海,而算力集群则是 把上万台甚至几十万台计算机像搭积木一样连接起来,形成一艘能承载巨量计算任务的 "算力航 空母舰"。 当我们把上万台计算机整合成一个有机整体时,需要解决一系列世界级难题:如何让它们像 精密钟表一样协同工作?如何在部分设备故障时依然保持高效运行?如何快速修复大规模训 练中的中断问题?接下来我们将逐一揭秘这些支撑 AI 算力集群的关键特性,看看华为团队如 何用工程智慧驯服这头算力巨兽。 超节点高可用 ...