不用额外缓存,英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
NvidiaNvidia(US:NVDA) 3 6 Ke·2026-01-14 08:22

提高大模型记忆这块儿,美国大模型开源王者——英伟达也出招了。 联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。 在128K超长文本上处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,性能还不打折。 这项技术与前几天大火的DeepSeek条件记忆模块有所不同。 DeepSeek的Engram模块依赖的是"按需查表"的静态学习路径,而英伟达走的是动态学习的路子,关键在于上下文压缩。 通过实时学习将关键内容压缩到自身权重中,让模型在测试阶段依然保持学习状态。 这样既避免了额外缓存的负担,又能精准捕捉长文本中的核心逻辑。 给模型装上记忆压缩包 TTT-E2E并没有依赖复杂特殊架构,反而是基于带滑动窗口注意力的标准Transformer,容易部署。 这个方法的核心思路是将长文本建模从架构设计问题转化为「持续学习」任务。 在测试阶段,模型会基于当前读取的上下文进行下一个词预测。 为了平衡效率与稳定性,TTT-E2E还设计了三项关键优化。 一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批,配合8K大小的滑动窗口注意力,既解决了单t ...