推理上下文记忆存储（ICMS）平台 - filings, earnings calls, financial reports, news - Reportify

推理上下文记忆存储（ICMS）平台

Search documents

中信证券：存算上下文长度激增显存优化不改存力爆发需求

智通财经网· 2026-03-31 01:59

2）分层存储：例如英伟达在Rubin平台中引入推理上下文记忆存储（ICMS）平台，据英伟达官网，该平台构建了一个上下文记忆层（通过以太网连接的闪存层级，专门针对KV Cache进行优化），通过保持延迟敏感、可复用的推理上下文并对其进行预加载来提高GPU利用率，从而增强现有的网络对象和文件存储，使吞吐量（TPS）提高了5倍，并且比传统存储的能效提高了5倍。 3）模型架构优化：GQA/MQA（Grouped/Multi-Query Attention）已经是Llama、Mistral等主流模型标配，KV Heads远少于Query Heads，显著降低KV Cache占用。MLA（Multi-Head Latent Attention）是 DeepSeek在DeepSeek-V2中首次提出的新型注意力机制，也是专门为了解决KV cache内存瓶颈而设计的架构级创新。显存优化为持续趋势，看好Agent AI时代存力爆发需求智通财经APP获悉，中信证券发布研报称，看好Agent AI时代存力提升下存算产业趋势，近存计算高景气，看好HBM及CUBE产业链；同时存储紧缺下主流至利基存储全面缺货涨价，预计2 ...

杰文斯悖论

推理上下文记忆存储（ICMS）平台

杰文斯悖论

推理上下文记忆存储（ICMS）平台