Nvidia-不用额外缓存，英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

提高大模型记忆这块儿，美国大模型开源王者——英伟达也出招了。联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。在128K超长文本上处理速度比全注意力模型快2.7倍，处理2M上下文时提速达35倍，性能还不打折。这项技术与前几天大火的DeepSeek条件记忆模块有所不同。 DeepSeek的Engram模块依赖的是"按需查表"的静态学习路径，而英伟达走的是动态学习的路子，关键在于上下文压缩。通过实时学习将关键内容压缩到自身权重中，让模型在测试阶段依然保持学习状态。这样既避免了额外缓存的负担，又能精准捕捉长文本中的核心逻辑。给模型装上记忆压缩包 TTT-E2E并没有依赖复杂特殊架构，反而是基于带滑动窗口注意力的标准Transformer，容易部署。这个方法的核心思路是将长文本建模从架构设计问题转化为「持续学习」任务。在测试阶段，模型会基于当前读取的上下文进行下一个词预测。为了平衡效率与稳定性，TTT-E2E还设计了三项关键优化。一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批，配合8K大小的滑动窗口注意力，既解决了单t ...