Workflow
英伟达Rubin CPX 的产业链逻辑

今天几乎是被英伟达Rubin CPX的这个新闻刷屏了,但白天太忙,晚上回来才有时间好好看一下 SemiAnalysis的这个报告。在文章后半段,我们会简单分析一下Rubin CPX利好的两个方向。 AI 推理的两难困境 想明白 Rubin CPX 的价值,得先知道 AI 大模型推理时的一个关键矛盾: 预填充(prefill)和解码 (decode)这两个阶段,对硬件的需求完全是反的 。 在我们之前的一次分析华为的Cloud Matrix 384中光模块用量的直播中,讲到过Prefill和Decode的区 别: 在Prefill阶段特别吃计算能力,但对内存带宽的需求很低;而接下来的Decode,模型要基于第一个 token 不断生成后续内容,这时候就不怎么需要计算了,反而得靠高内存带宽快速调取之前的 KV 缓 存数据。 过去的问题是,大家都用同一种 GPU(比如英伟达的 R200)跑这两个阶段。结果在跑预填充时, R200 上那些昂贵的 HBM 内存(高带宽、高成本)根本用不上,带宽利用率较低,相当于花大价钱 买了个顶配跑车,结果只用来买菜;跑解码时,又觉得计算能力过剩,内存带宽不够用。这种通用 的硬件方案,不 ...