Workflow
推理上下文记忆存储(ICMS)平台
icon
Search documents
中信证券:存算上下文长度激增 显存优化不改存力爆发需求
智通财经网· 2026-03-31 01:59
2)分层存储:例如英伟达在Rubin平台中引入推理上下文记忆存储(ICMS)平台,据英伟达官网,该 平台构建了一个上下文记忆层(通过以太网连接的闪存层级,专门针对KV Cache进行优化),通过保 持延迟敏感、可复用的推理上下文并对其进行预加载来提高GPU利用率,从而增强现有的网络对象和文 件存储,使吞吐量(TPS)提高了5倍,并且比传统存储的能效提高了5倍。 3)模型架构优化:GQA/MQA(Grouped/Multi-Query Attention)已经是Llama、Mistral等主流模型标 配,KV Heads远少于Query Heads,显著降低KV Cache占用。MLA(Multi-Head Latent Attention)是 DeepSeek在DeepSeek-V2中首次提出的新型注意力机制,也是专门为了解决KV cache内存瓶颈而设计的 架构级创新。 显存优化为持续趋势,看好Agent AI时代存力爆发需求 智通财经APP获悉,中信证券发布研报称,看好Agent AI时代存力提升下存算产业趋势,近存计算高景 气,看好HBM及CUBE产业链;同时存储紧缺下主流至利基存储全面缺货涨价,预计2 ...