Workflow
推理上下文内存存储(ICMS)架构
icon
Search documents
英伟达推理上下文内存存储对NAND意味着什么?
Hua Er Jie Jian Wen· 2026-01-14 16:30
花旗认为,英伟达在AI推理应用中采用的上下文内存存储技术,预计将加剧NAND闪存市场的供应短 缺。 据追风交易台,花旗最新报告指出,英伟达推出的推理上下文内存存储(ICMS)架构将显著拉动 NAND闪存需求,为存储芯片制造商带来结构性机遇,并可能进一步推升NAND价格。建议密切关注存 储产业链供需格局变化,相关厂商有望持续受益于此轮需求增长。 英伟达宣布其Vera Rubin平台将采用搭载BlueField-4芯片的ICMS架构,通过卸载KV Cache突破内存瓶 颈、提升AI推理性能。该架构单台服务器需额外配置1152TB SSD NAND,报告预计2026年、2027年将 分别带来占全球NAND需求总量2.8%、9.3%的新增需求。此举将进一步加剧全球NAND供应短缺,同时 为三星电子、SK海力士、闪迪、铠侠、美光科技等头部NAND供应商创造显著市场机会。 ICMS:AI推理的存储瓶颈解决方案 报告指出,大规模AI推理面临显著的内存瓶颈。Transformer模型的核心内存优化机制——KV Cache, 通过存储已计算的键值对来避免重复运算,并根据性能与容量需求分层存储:活跃KV缓存存放于GPU HBM( ...