Workflow
3D堆叠封装
icon
Search documents
新一代AI推理芯片
2026-03-06 02:02
新一代 AI 推理芯片 20260304 摘要 GPU 与 LPU 由替代转向互补:GPU 擅长 Prefill 阶段的大规模并行预处 理,LPU 在 Decode 阶段(连续 token 生成)具备低延迟优势,二者协 同可显著改善 P95/P99 尾部延迟。 英伟达或推出机架级集成方案:预计 GTC 后可能发布包含 64 集群 LPU 与 GPU 打包的整体解决方案,通过系统级交付兼顾高吞吐算力与极低交 互延迟。 3D 堆叠封装是 LPU 核心技术支撑:通过片上 SRAM/DRAM 与计算核心 垂直堆叠,缩短访问链路,虽容量仅为百兆级(远低于 HBM),但访问 延迟极低,系推理提速关键。 LPU 无法取代 TensorCore:LPU 聚焦语言文本处理,缺乏并行计算与 图形渲染能力,且不支持训练所需的多精度(FP16-FP64)计算,无法 胜任万亿参数模型训练。 异构集成成为先进制程瓶颈下的必然选择:在 2nm 等节点良率受限背 景下,通过 Chiplet 将不同制程的 CPU、GPU、NPU 集成,可有效降低 TCO 并提升系统能效。 高功耗挑战驱动散热与供电变革:单芯片功耗逼近 2000W,将倒逼数 据 ...