Workflow
集群
icon
Search documents
华为任正非为中国芯片突围指明方向:叠加与集群技术破局
Sou Hu Cai Jing· 2025-06-11 06:03
任正非坦言,中国在单芯片制程上仍落后美国一代,但通过"数学补物理、非摩尔补摩尔、群计算补单芯片"的创新策略,可实现系统级性能突破。他以华为 昇腾芯片为例,指出该芯片虽在制程上不及国际领先的3nm芯片,但通过自研的CCE通信协议构建高效集群,支持了盘古大模型的训练,整体算力可媲美部 分顶级GPU。这一策略与谷歌TPU集群的成功经验类似,后者通过Cloud TPU集群的强大合力,成功训练出5400亿参数的PaLM模型,证明了集群计算在人工 智能领域的规模效应。 华为创始人任正非在接受《人民日报》专访时提出,中国芯片产业可通过"叠加与集群"技术路径实现突围,在计算结果上与全球最先进水平相当。这一观点 为当前中国芯片产业面临的"卡脖子"困境提供了新的解题思路。 华为在算法优化方面的突破同样关键。任正非提出的"用数学补物理"理念,具体体现在稀疏计算、模型量化和剪枝等技术的应用上。例如,华为的 MindSpore框架通过动态图优化和低精度计算,使AI训练的计算需求降低了30%以上。这种软件与硬件协同优化的模式,使得华为在制程相对较低的情况 下,依然能达成高效的计算效果。天津港无人化码头的实践便是例证:数百块昇腾芯片组成的 ...
26家潮玩产业链企业意向入驻,东莞石排潮玩中心总部启动
Nan Fang Du Shi Bao· 2025-06-11 05:41
6月10日,中国潮玩之都2025潮玩产业生态合作伙伴大会在东莞市石排镇中国潮玩之都·潮玩中心(总 部)举行。潮玩中心(总部)也于当天正式启动,以"总部经济+生态布局"模式整合全产业链资源,吸 引优质企业入驻,推动潮玩产业从分散走向规模化、集群化发展,为行业提供集资源对接、产业服务于 一体的"一站式"支撑平台。大会聚集超400家行业领军企业及机构,覆盖品牌营销、生产制造、科技赋 能、研发设计、金融贸易等全产业链环节,共同探讨潮玩产业创新发展路径。 大会现场,26家覆盖IP孵化、智能制造、跨境电商等潮玩产业全链条环节的企业正式签署中国潮玩之都 ·潮玩中心(总部)意向入驻协议,未来将入驻中国潮玩之都·潮玩中心(总部)产业协同中心、直播电 商中心、供应链管理中心、工业设计中心、产业赋能中心五大核心板块。此外,一批企业同步签约第十 五届中国国际动漫博览会意向参展协议,为2025年潮玩盛会预热。 石排镇党委委员邓旭伦在大会上作了石排镇及潮玩中心(总部)主题推介,诚挚地向全球优质项目、杰 出企业和卓越团队、个人发出邀请,欢迎大家齐聚石排这片热土创新创业、成就梦想。 采写:南都记者 唐国轩 通讯员 石排宣 活动中,湾区潮玩文 ...
“被误解”的任正非:芯片“断章取义”报道何时休?
Sou Hu Cai Jing· 2025-06-11 02:11
《人民日报》采访原文中,任正非原话的确是"芯片问题其实没必要担心,用叠加和集群等方法,计算结果上与最先进水平是相当的。"不过,这一个回 答, 实际续接的是"您对人工智能的未来背景怎么看"。也就是说,任正非的本意并没有那么"高调",而是说中国在AI领域有芯片可用,正因为在单芯片 性能上落后美国芯片不少,所以昇腾才要剑走偏锋,通过堆叠(istack)和集群(Cluster)去力求达到英伟达那种性能。 其实只需要把原来的标题改成"AI芯片的问题没必要担心",仅仅一词之差,整体的语义就回归了。实际原文中任正非整体态度很谦虚,但看到这样的报 道,或许有些人就会认为任正非很"狂"。此类的断章取义其实还有很多…… "被误解"的任正非 实际上,如果经常关注国外报道,也许你会看到这样的字眼——华为创始人认为中国无需担心美国芯片制裁。 但如果细细品味一下《人民日报》的原文报道,就会发现,这种说法完全是境外媒体的捏造和臆测。任正非这一篇采访非常振奋人心,不仅提振了国内芯 片行业的士气,也非常谦逊,接受批评,正视不足,是一篇值得细细品味的报道。 中共中央办公厅国务院办公厅关于进 保障和改善民生 着力解决群众急难愁盼的意见 (2025 ...
“被误解”的任正非:芯片“断章取义”报道何时休?
是说芯语· 2025-06-11 01:00
以下文章来源于电子工程世界 ,作者EEWorld 其实只需要把原来的标题改成 " AI 芯片的问题没必要担心",仅仅一词之差,整体的语义就回归 了。实际原文中任正非整体态度很谦虚,但看到这样的报道,或许有些人就会认为任正非很"狂"。 此类的断章取义其实还有很多…… 电子工程世界 . 即时参与讨论电子工程师关注话题,抢先知晓电子工程业界新鲜资讯。 昨天,你是不是也看到类似的说法 —— 任正非发声,芯片的问题没必要担心。实际上,很多人都 被"标题党"坑了。 《人民日报》采访原文中,任正非原话的确是 "芯片问题其实没必要担心,用叠加和集群等方法, 计算结果上与最先进水平是相当的。"不过,这一个回答, 实际续接的是"您对人工智能的未来背景 怎么看"。也就是说,任正非的本意并没有那么"高调",而是说中国在 AI 领域有芯片可用,正因为 在单芯片性能上落后美国芯片不少,所以昇腾才要 剑走偏锋,通过堆叠( istack )和集群( Cluster )去力求达到英伟达那种性能。 "被误解"的任正非 实际上,如果经常关注国外报道,也许你会看到这样的字眼 ——华为创始人认为中国无需担心美国 芯片制裁。 但如果细细品味一下《人民日 ...
博鳌亚洲论坛国际科技与创新论坛举行
Ren Min Ri Bao· 2025-06-11 00:17
博鳌亚洲论坛于2019年发起国际科技与创新论坛,邀请政府部门、科研机构、科创企业、创投机构等多 方参加,共同探讨全球科技治理新框架、技术发展新趋势,同步展示前沿技术成果。前三届会议分别在 澳门、广州、珠海成功举办。此次香港会议深度融合博鳌论坛的国际视野、粤港澳大湾区的产业活力与 香港的独特优势,携手各方着力在四个方面开展深入探讨。一是引领国际合作方向,营造开放、公正、 包容的创新生态,完善全球科技治理规则,确保科技创新"守正、行稳、致远"。二是促进务实合作,以 经济高质量发展为主线,探索未来产业发展路径,为产业发展注入科技动力。三是缩小技术鸿沟,倡导 国际社会共同参与科技治理,防范技术垄断,为全球南方迈向现代化提供创新支撑。四是打造区域创新 高地,强化粤港澳大湾区创新集群效应,服务大湾区创建具有全球影响力的创新枢纽。 本报电(记者李霞)日前,博鳌亚洲论坛国际科技与创新论坛2025年会议在香港会议展览中心举行。这 次会议由博鳌亚洲论坛与香港特别行政区政府共同主办,以"科技引领未来,创新驱动转型"为主题,聚 焦量子计算、生命科学、创新集群发展、全球科技治理、人工智能产业化、绿色技术赋能可持续发展等 前沿议题。来自 ...
昇腾AI算力集群有多稳?万卡可用度98%,秒级恢复故障不用愁
21世纪经济报道· 2025-06-10 12:55
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测 拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智 能应用,背后都依赖着像 "超级大脑" 一样的 AI 算力集群在 24 小时不停运转。 如果把 AI 算力集群比作一个大型工厂的生产线,高可用性就相当于让这条生产线具备 "永不 罢工" 的能力,给 AI 算力集群上了一份 "保险",让这个支撑智能时代的 "数字发动机" 既能 承 受 日 常 的 " 小 磕 小 碰 " , 又 能 在 遇 到 突 发 故 障 时 保 持 稳 定 运 行 。 只 有 确 保 算 力 资 源 随 时 可 用、持续输出,才能让 AI 真正成为驱动业务创新的可靠引擎,而不是随时可能熄火的 "半成 品"。 高可用核心基础——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 效提升 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 11:25
想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥 堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应 用,背后都依赖着像 " 超级大脑 " 一样的 AI 算力集群在 24 小时不停运转。 超节点需要做大超节点规模,才能充分发挥超平面网络的优势,目前业界没有使用光链路来构建超节 点的成功案例,因此华为团队提出了相应的超节点光链路软件容错方案。通过多层防护体系,借助超 时代答,绿色通道等关键技术实现无超节点级故障,通过链路级重传,光模块动态升降 Lane , HCCL 算子重执行,借轨通信,双层路由收敛, Step 级重调度等特性,实现光模块闪断的故障率容 忍度 >99% 。在新增 10 倍 + 光模块后,通过软件可靠性措施,以及光链路压测技术等,实现光模 块闪断率低至电链路水平,保障了超平面的可靠性。通过构建 Step 级重调度能力,高频的 HBM 多 比特 ECC 故障恢复时间 缩短至 1min ,对于因为故障造成的用户的算力 损失下降 5% 。 高可用助力业务——万卡集群上千亿模型的线性度和训推快恢 线性度指标用于衡量训练 ...
Linux 基金会执行董事呼吁:科技公司使用开源软件帮助创新
Xin Lang Ke Ji· 2025-06-10 11:11
CNCF 首席技术官 Chris Aniszczyk在会上表示,高度认可中国在云原生技术领域的创新与贡献。中国在 科技创新尤其云原生领域展现重大贡献,是 CNCF 最早且最强大的生态系统之一,开源贡献位居全球 第二,孕育出如 Volcano、Dragonfly、KubeEdge、OpenYurt 等多个具有全球影响力的项目,彰显了在边 缘计算、容器调度、分布式处理等多方面的卓越能力。 责任编辑:何俊熹 新浪科技讯 6月10日晚间消息,由云原生计算基金会(CNCF)和 Linux 基金会联合主办的KubeCon + CloudNativeCon China 2025 在香港开幕。 华为首席开源联络官,CNCF 董事会成员任旭东发表《迈向人工智能集群云》主题演讲。任旭东指出, 人工智能硬件基础设施正朝着大型处理器集群的方向发展,需要我们在构建和管理云的方式上进行重大 变革,而借助 Linux、Volcano 和 Karmada 等项目,我们可以实现向人工智能集群云的演进。 Linux 基金会执行董事 Jim Zemlin致开场词。Jim Zemlin 鼓励科技公司使用开源软件来帮助创新,他指 出,长期以来,有很多 ...
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 10:30
秒级快恢、超95%线性度,华为如何让算力集群高效稳定工作? 编辑丨李希 01 引言 想象一下,你正在用手机导航规划长途路线,背后可能有几十个 AI 模型同时在分析路况、预测拥堵;医院用 AI 辅助诊断癌症时,系统需要瞬间处理成百上千张 CT 影像。这些看似简单的智能应用,背后都依赖着像 "超 级大脑" 一样的 AI 算力集群在 24 小时不停运转。 高可用核心基础 ——面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然后各域内部故障定 界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要求高 ,难以找到故障设备和根因。 华为团队为了让集群运维工具能够快速找到问题原因,有效提升现网问题的闭环效率,提出了 全栈可观测能 力,构建了大规模集群的故障感知能力,主要由集群运行视图、告警视图、网络链路监控、告警接入和配置、 网络流可观测能力组成;同时还提出了包括全栈故障模式库、跨域故障诊断、计算节点故障诊断、网络故障诊 断等四大能力的故障诊断技术。 当前行业水平下,万卡级别的 AI集群平均每天会出现一次甚至多次故障,这不仅严重影响了训练效率,还 ...
敢说永不掉线、秒级恢复,华为的底气是什么?
虎嗅APP· 2025-06-10 10:18
HUAWEI X HUXIU 在通往通用人工智能(AGI)的路上,如何像其他领域一样实现弯道超车,是业界绕不开的 话题。 在过去的十余年时间里,各项单点技术飞速演进,但随着单点技术演进的边际效应递减和系 统复杂度的提升,系统性能的天花板逐步从单点技术的上限演变成系统工程上限:单点优势 越来越像是精致的零件,提升空间有限;但采用系统工程创新,各个部分完美配合、高效协 同,实现整个系统的效能最优,才有更积极的现实意义。 如何在发挥单点技术优势的同时,以整体视角重新构建路径,通过对复杂系统的极致把控与 再组织、找到新的突破可能?解决这个看似不可能的问题,就有望为我们独立引领最前沿技 术发展创造条件。 近期,虎嗅将推出《华为技术披露集》系列内容,通过一系列技术报告,首次全面详述相关 技术细节,为业界提供参考价值。 01 高可用核心基础: 面向超节点的故障感知、管理及容错 AI大集群问题定位复杂,系统规模大、软硬技术栈复杂、调用链长,先要跨域故障定界,然 后各域内部故障定界定位,故障诊断面临巨大挑战;当前定位时间从数小时到数天,技能要 求高 ,难以找到故障设备和根因。华为团队为了让集群运维工具能够快速找到问题原因,有 ...