Workflow
超节点
icon
Search documents
超节点时代来临:AI算力扩容!申万宏源:关注AI芯片与服务器供应商
Ge Long Hui· 2025-07-10 08:09
近日,申万宏源黄忠煌团队发布研报称,在大模型参数呈爆炸式增长的当下,算力需求正从单点向系统 级整合加速转变。 那么,服务器厂商生存空间是否受到挤压? 首先,AI 芯片厂商不会切入代工业务。AMD 收购 ZT System 后剥离了其代工业务,避免与 OEM/ODM 的竞争,海光收购曙光目的也是为了强化协同,提升液冷、软件等能力。 但是,算力链条的产业链分工可能会进一步细化。在超节点趋势下,AI 芯片之间、AI芯片与交换机芯 片之间的互联,大都需要通过板卡(尤其是电信号互联)。以英伟达为例,其板卡在产品推出初期自行设 计,产品稳定后会开放给 OEM 合作伙伴,此时板卡设计的能力就成为了能否获取更多价值量的核心差 异化能力。因此代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商。 超节点实际就是算力网络系统在单个或多个机柜层面的 Scale up,节点内主流通信方案是铜连接与电气 信号,跨机柜则考虑引入光通信;其与 Scale out 的硬件边界是 NIC网卡,外部借助光模块、以太网交 换机等设备。二者的架构设计、硬件设备、协议标准有本质不同。 目前,Scale up 和 Scale out 尚 ...
计算机行业周报:超节点:从单卡突破到集群重构-20250709
行 业 及 产 业 计算机 2025 年 07 月 09 日 相关研究 《从 CloudMatrix 看超节点趋势!3D 打 印产业强趋势!——计算机行业周报 20250616-20250620》 2025/06/21 《字节 FORCE 大会亮点!华为 HDC 2025 关注点!——计算机行业周报 20250609-20250613》 2025/06/14 证券分析师 黄忠煌 A0230519110001 huangzh@swsresearch.com 李国盛 A0230521080003 ligs@swsresearch.com 林起贤 A0230519060002 linqx@swsresearch.com 杨海晏 A0230518070003 yanghy@swsresearch.com 洪依真 A0230519060003 hongyz@swsresearch.com 刘洋 A0230513050006 liuyang2@swsresearch.com 研究支持 曹峥 A0230525040002 caozheng@swsresearch.com 崔航 A0230524080005 cuihang@ ...
华丰科技(688629):高速连接国产先锋,受益AI短距互联
HTSC· 2025-07-04 12:41
通讯板块:与国内龙头厂商为伍,受益于 AI 集群内部短距互联需求增长 证券研究报告 华丰科技 (688629 CH) 高速连接国产先锋,受益 AI 短距互联 2025 年 7 月 04 日│中国内地 通信设备制造 首次覆盖华丰科技并给予"增持"评级,目标价 59.86 元/股,基于 26E 75xPE 估值。公司是国内高速连接器领军者,我们看好:1)在国内 AI 持续投入叠 加海外 GPU 供应受限背景下,国产算力放量或将带来可观的集群内短距互 联需求,公司为大客户开发的高速线模组产能正逐步释放,有望持续兑现业 绩增长;2)其他业务方面,"十四五"即将收官,军费预算增长下公司防 务订单有望向好,工业板块收入预计在新能源车高压趋势下实现稳健增长, 此外 CPU Socket、无人机系统连接方案等新产品有望在远期逐步导入市场。 铜连接应用有望在 AI 集群高速化、超节点化趋势下增加:1)GPU 算力与 带宽不断升级,要求更高信号速率;2)英伟达、华为等全球龙头均已发布 超节点架构,未来短距互联场景或显著增加。我们测算,29 年国内高速背 板连接器市场规模有望达 241 亿元,25E-29E 市场空间 CAGR 为 ...
华为“算力核弹”超越英伟达的秘密
Guan Cha Zhe Wang· 2025-06-12 14:21
Core Viewpoint - The emergence of Huawei's Ascend CLoudMatrix 384 supernode, which surpasses NVIDIA's flagship NVL72 system by 70% in computing power, signifies a shift in the AI computing landscape from single-point breakthroughs to system-level innovations, driven by the need to overcome traditional computing limitations under U.S. sanctions [1][6][29]. Group 1: AI Computing Landscape - The AI computing race is transitioning from hardware-centric approaches to architecture redefinition, with Huawei's innovations highlighting a unique path for China's system-level advancements [1][6]. - Huang Renxun, CEO of NVIDIA, has expressed increasing anxiety regarding China's rapid advancements in AI technology, emphasizing the impossibility of halting China's progress in this field [2][5][9]. Group 2: Huawei's Technological Advancements - Huawei's Ascend CLoudMatrix 384 supernode utilizes domestic Ascend chips and achieves a total computing power of 300 PFlops, significantly exceeding NVIDIA's NVL72 system [1][6][14]. - The architecture of the Ascend CLoudMatrix 384 supernode is based on a "fully equal architecture," which enhances communication efficiency and overcomes traditional bottlenecks such as the "memory wall" and "communication wall" [1][18][20]. Group 3: Competitive Dynamics - The U.S. government's sanctions have prompted NVIDIA to incur a $5.5 billion inventory loss, while simultaneously highlighting the importance of the Chinese market for NVIDIA's future [5][6]. - Huang Renxun acknowledges that China's advancements in AI technology could lead to a significant reduction in NVIDIA's market share in China, which has dropped from 95% to 50% in recent years [9][22]. Group 4: System-Level Innovations - The Ascend CLoudMatrix 384 supernode's design allows for the integration of thousands of cards, enabling it to support larger models and enhance training efficiency [1][6][14]. - The use of optical communication technology in the Ascend CLoudMatrix 384 supernode allows for high bandwidth and low latency, which is crucial for large-scale AI model training [20][21]. Group 5: Future Implications - The successful deployment of the Ascend CLoudMatrix 384 supernode and its ability to train large models like the Pangu Ultra MoE model demonstrates the potential for domestic AI infrastructure to achieve self-sufficiency [26][29]. - The emergence of Huawei's technology provides a viable alternative to NVIDIA's offerings, potentially reshaping the competitive landscape in the AI industry [22][29].
从 DeepSeek 部署看,华为如何让 MOE 架构“迎来”海量“专家”?
AI前线· 2025-05-22 04:30
作者 | 褚杏娟 "模型开发已经从早期的算法层优化,转向系统工程层面的深度创新。"华为技术专家说道。 如今已经从数字化时代的比特流量转向 Token 经济体系。国内 Token 日消耗量从千亿级跃升至十万亿级,DeepSeek 等头部平台日均处理 6000 亿 Token 的实践,验证了高吞吐、低时延系统的商业价值。 同时,随着模型结构从单一架构探索发展为多模态融合创新,大模型的驱动部署模式发生根本转变。传统单卡部署已无法满足大模型高吞吐、高并发的 需求,分布式集群部署成为新常态。以 ChatGPT 和 DeepSeek 为例,用户规模突破亿级的时间从 1 个月压缩至 7 天,倒逼系统处理能力实现数量级提 升。如何提供更高的吞吐能力、更低的时延成为系统,成为各基础设施厂商的必做题。 DeepSeek 专调 DeepSeek 本身已经在 infra 层做了很多优化,但在企业部署过程中,华为自己也针对 DeepSeek 的模型做了各种优化,帮助企业全面兼容和支持应 用。 大模型训推方案 预训练方面,华为首先完整复现了幻方的 DualPipe 技术(仅开源了框架,没有开源代码),但该方案存在静态显存占用较高的问题。 ...
GPU集群怎么连?谈谈热门的超节点
半导体行业观察· 2025-05-19 01:27
以下文章来源于魔形智能 Magik Compute ,作者K君 魔形智能 Magik Compute . 为全球客户提供AGI Infra与AIaaS产品和服务 如果您希望可以时常见面,欢迎标星收藏哦~ 人工智能(AI)的浪潮正以前所未有的速度重塑各行各业,其背后离不开海量算力的支撑。当AI模型参数从 亿级跃升至万亿级,传统服务器已难以满足日益增长的算力需求与效率要求。为了打破这个瓶颈,一个全新的 概念应运而生——超节点 (Super Node)。 不止于"大":什么是超节点服务器? 简单来说, 超节点服务器就是大量高速计算芯片的高效统一结构 ,面对AI算力大潮的最优解。它并非计算硬 件的简单堆砌,而是将海量的计算单元(CPU/GPU/TPU等)以前所未有的密度和效率整合在一起,专门为应 对人工智能任务带来的庞大算力需求而生。 传统AI服务器虽然也集成了CPU、GPU等部件,但当AI模型参数动辄千亿、训练数据浩如烟海时,单个GPU 的显存和算力就如同杯水车薪。模型并行(将一个大模型拆分给多个GPU协同处理)成为必然选择。但问题来 了:参与模型并行的服务器之间需要进行海量、高速的数据交换,服务器间的以太网/ I ...
华为云黄瑾:传统计算架构难支撑AI代际跃迁,超节点架构是创新
Bei Ke Cai Jing· 2025-05-16 12:56
新京报贝壳财经讯(记者韦博雅)5月16日,在华为云AI峰会上,华为云副总裁黄瑾表示,随着大模型 训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁,超节点架构的诞 生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。 编辑 岳彩周 校对 穆祥桐 黄瑾表示,AI算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的 瓶颈,需求增长了1万倍。然而过去的8年里,单卡硬件的算力增长了40倍,但是节点内的总线带宽只增 长了9倍,跨节点的网络带宽只增长了4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑 战。 在CloudMatrix 384超节点的分布式推理平台的加持下,通过高速互联总线,能够实现一卡一专家高效分 布式推理,单卡的MoE计算和通信效率大幅提升。而MatrixLink服务具有两层网络:超节点内部的 ScaleUp总线网络和跨超节点间的ScaleOut网络,可以让超节点内384张卡高速互联,时延低至微秒。 除此之外,华为云首创的EMS弹性内存存储,通过内存池化技术,实现显存和算力解绑,可大幅提升 资源利用率、性能和吞吐量,比如用EMS替代NPU中的显 ...
六年后再次面对禁令,华为云有了更多底气
36氪· 2025-05-16 09:21
CloudMatrix384超节点, 重构全球算力竞争格局。 5月13日,美国商务部工业与安全局(BIS)针对华为昇腾AI芯片发布全球禁令,宣称"在世界任何地方使用华为昇腾芯片均违反美国出口管制",紧接着 又将禁令封锁对象扩大到所有中国其他先进芯片(advanced computing ICs)。 巧合的是,禁令宣布期间,英伟达CEO黄仁勋正与其他美国科技高管随总统一同访问沙特。而在禁令出台同日,英伟达迅速宣布拿下"土豪"沙特阿拉伯国 的1.8万块AI GPU超大订单。 但管制归管制,这么大的中国AI市场,美国似乎又割舍不下。 就在几天前的5月9日,新加坡《联合早报》曝出,虽然中国特供的H20"阉割版"GPU又被禁售,英伟达将很快对H20进行"二次阉割",其INT8精度算力将 从296TFLOPs降低至不足100TFLOPs,整体性能下降超过60%,以再度卖给中国。 GPU性能下降超过60%,意味着大模型训练成本将成倍飙升。中国,真的还买吗? 与此同时,面对一再加码的美国半导体出口管制,华为也没闲着。早在今年4月,华为便推出了最新升级的CloudMatrix 384超节点技术。 这项最新技术能够将384张华为 ...
山西证券:一季报后AI算力展望依然乐观 下半年国产算力或迎更强增长
智通财经网· 2025-05-02 06:18
智通财经APP获悉,山西证券发布研报称,云巨头资本开支展望确定,光模块、铜连接等核心公司一季 度显示较高增速。目前压制海外链的因素主要在估值层面,后续GPT5、DeepSeekR2的发布被认为将 有"质的突破",2026年算力投资展望难有根本性调整;同时特朗普政府关税政策难有边际恶化的预期, 因此投资海外AI链当前具有较好的安全边际。 对于AIDC赛道,由于新增产能投放转化为收入需要时间,因此当前行情主要由预期驱动作为产能投放 的前置指标,由于H20销售管制政策的变化,国产算力在下半年将迎来更加快速的导入窗口,看好以昇 腾、海光、寒武纪、沐曦为代表的国产算力产业链。 卫星互联网星网与垣信两大星座"航班化"发射节奏已经展开,下半年有望带动新一批卫星配套载荷、天 线产业链补库和地面终端的首轮集采,同时手机直联卫星实验星已经发射,有望带动数字相控阵、星间 激光组网、手机新型射频模组等新技术主题投资。 由于H20销售管制政策的变化,国产算力在下半年将迎来更加快速的导入窗口,看好以昇腾、海光、寒 武纪、沐曦为代表的国产算力产业链。同时,超节点技术是华为910C集群最突出的竞争优势,移动牵 头的OISA和腾讯牵头的ETH ...
910C的下一代
信息平权· 2025-04-20 09:33
无论如何,眼下的线索已经可以假定CloudMatrix和UB-Mesh是在描述两种不同的硬件形态了。 在进一步分析这两个事物的关系前,想先引用一下前两天SemiAnalysis关于CloudMatrix的分析。 SemiAnalysis的分析师无疑都非常专业,比中国那些为了炒HWJ或者光纤电缆的小作文可强多了。 可文章中提到的关于CloudMatrix的两个弱点,却让人觉得他们又有点那么点菜菜。 以下文章来自夏 core 转发的神秘网友,是谁咱也不知道,总之截图了我们群里的消息 ... 华为发布的昇腾CloudMatrix 384超节点,号称采用UB互联完成了384颗NPU的互联,并号称能够与 Nvidia的NVL72比肩。好巧不巧,不久前的三月底,华为还发布了一篇名为 UB-Mesh的论文 ,也描述 了一种也被称为超节点的NPU互联结构。 确实也有传言说CloudMatrix的组网就是UB-Mesh,但也有人说不是,但如果不是,他们之间是个什么 关系呢? 不难发现,UB-Mesh的硬件全是1U的超薄Chasis,而CloudMatrix的Rack中,怎么看都找不到1U框的结 构。而且 ,如果数数量的话,UB ...