Scale out

Search documents
超节点时代来临:AI算力扩容!申万宏源:关注AI芯片与服务器供应商
Ge Long Hui· 2025-07-10 08:09
近日,申万宏源黄忠煌团队发布研报称,在大模型参数呈爆炸式增长的当下,算力需求正从单点向系统 级整合加速转变。 那么,服务器厂商生存空间是否受到挤压? 首先,AI 芯片厂商不会切入代工业务。AMD 收购 ZT System 后剥离了其代工业务,避免与 OEM/ODM 的竞争,海光收购曙光目的也是为了强化协同,提升液冷、软件等能力。 但是,算力链条的产业链分工可能会进一步细化。在超节点趋势下,AI 芯片之间、AI芯片与交换机芯 片之间的互联,大都需要通过板卡(尤其是电信号互联)。以英伟达为例,其板卡在产品推出初期自行设 计,产品稳定后会开放给 OEM 合作伙伴,此时板卡设计的能力就成为了能否获取更多价值量的核心差 异化能力。因此代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商。 超节点实际就是算力网络系统在单个或多个机柜层面的 Scale up,节点内主流通信方案是铜连接与电气 信号,跨机柜则考虑引入光通信;其与 Scale out 的硬件边界是 NIC网卡,外部借助光模块、以太网交 换机等设备。二者的架构设计、硬件设备、协议标准有本质不同。 目前,Scale up 和 Scale out 尚 ...
什么是Scale Up和Scale Out?
半导体行业观察· 2025-05-23 01:21
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容来自半导体行业观察综合 。 在本文中,我们来谈一下GPU集群的横向和综合拓展。 让我们从"AI Pod"的概念开始。这个术语对不同的人可能意味着不同的东西,但它通常指的是一种预先配置的模块化基础设施解决方案,旨在简化 和加速AI工作负载的部署。 这些"pod"将计算、存储、网络和软件组件集成为一个紧密相连的单元,从而促进高效的 AI 运行。这就是我们遇到"纵向扩展"和"横向扩展"等术语 的地方。以下是可视化示例: 每个 XPU 刀片通常包含 2 到 8 个 XPU 设备。每个设备可以形成为单片芯片(即由单个半导体切片制成),也可以形成由一组称为"芯片集"的芯 片组成的多芯片系统。 我们这里讨论的计算处理能力令人难以置信,XPU 设备本身也同样如此。例如,NVIDIA 的 B200 GPU 拥有超过 2000 亿个晶体管(当然,我可 没亲自数过)。 CPU(中央处理器) GPU(图形处理单元 NPU(神经处理单元) TPU(张量处理单元) DPU(数据处理单元) FPGA(现场可编程门阵列) ASIC(专用集成电路) END 半导体精品公众号推荐 扩展是有限制 ...