Workflow
英伟达首颗推理芯片,突然发布
半导体行业观察·2025-09-10 01:25

公众号记得加星标⭐️,第一时间看推送不会错过。 来源 : 内容来自半导体行业观察综合 。 随着这颗GPU的发布,NVIDIA 的产品有了范式转变,实际上也合情合理,但这与同构 GPU 机架和 集群相比,是一个巨大的转变。 借 助 这 颗 名 为 NVIDIA Rubin CPX , NVIDIA 在 同 一 个 NVL144 机 架 中 , 除 了 2026 个 Rubin HBM GPU 之外,还添加了多个 GDDR7 显存 GPU。实际上,这些大型 HBM Rubin GPU 配备了 GDDR7 Rubin CPX GPU 作为协处理器。 CPX 的基本观察是,当今的 LLM 分为两个不同的阶段:预填充( Pre-fill)和解码(decode)。 NVIDIA 将其分为上下文阶段和生成阶段。两者之间的转换需要移动键值缓存(key-value)或键值 缓存(KV cache)。通常,上下文阶段(预填充)受计算限制,而生成阶段则受内存限制。由于我 们正处于构建拥有数十万个 GPU 的集群并逐步扩展到数百万个 GPU 的时代,因此有足够的工作负 载和规模将这些任务拆分到两个更优化的架构中,而不是仅仅通过具有海 ...