中金 | AI十年展望（二十七）：越过“遗忘”的边界，模型记忆的三层架构与产业机遇

中金研究大模型的演进史，本质上是一部与"遗忘"抗争的历史。当我们惊叹于模型的推理能力时，往往忽视了一个重要短板：在缺乏记忆留存的架构下，模型每一次对历史信息的处理，本质上都是一次昂贵的"重复计算"。这种以高昂算力对抗遗忘的粗放模式，正面临着显存墙与上下文窗口的物理极限。我们认为，2026年及之后的AI Infra主战场将增加"模型记忆"这一极。何为模型记忆？如何理解短期、中期、长期记忆三层记忆系统对应的软硬件需求？如何对应模型训练、推理、Agent场景理解记忆分层系统？我们将在本报告中予以解答。点击小程序查看报告原文 Abstract 摘要短期记忆构成大模型单次推理的"当前视野"。作为高频读写、对延迟极度敏感的"热数据"，其核心矛盾在于KV Cache对显存容量与带宽的双重挤占。软件端通过PagedAttention显存虚拟化与PD分离调度进行优化，并探索出无限注意力（Infini-attention）等前沿架构以支撑百万Tokens上下文窗口。这一逻辑直接锚定了HBM与片上SRAM作为突破"显存墙"与"延迟墙"的重要硬件要素。中期记忆保障跨会话的情景连续性，是Agent的基 ...