中金 | AI十年展望(二十七):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金点睛·2026-02-12 23:36

中金研究 大模型的演进史,本质上是一部与"遗忘"抗争的历史。 当我们惊叹于模型的推理能力时,往往忽视了一个重要短板: 在缺乏记忆留存的架构下,模型 每一次对历史信息的处理,本质上都是一次昂贵的"重复计算"。 这种以高昂算力对抗遗忘的粗放模式,正面临着显存墙与上下文窗口的物理极限。我 们认为,2026年及之后的AI Infra主战场将增加"模型记忆"这一极。 何为模型记忆?如何理解短期、中期、长期记忆三层记忆系统对应的软硬件需求? 如何对应模型训练、推理、Agent场景理解记忆分层系统?我们将在本报告中予以解答。 点击小程序查看报告原文 Abstract 摘要 短期记忆构成大模 型单 次推理的"当前视野"。 作为高频读写、对延迟极度敏感的"热数据",其核心矛盾在于KV Cache对显存容量与带宽的双重挤占。软 件端通过PagedAttention显存虚拟化与PD分离调度进行优化,并探索出无限注意力(Infini-attention)等前沿架构以支撑百万Tokens上下文窗口。这一逻辑 直接锚定了HBM与片上SRAM作为突破"显存墙"与"延迟墙"的重要硬件要素。 中 期记忆保障跨会话的情景连续性,是Agent的基 ...