不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

这项技术与前几天大火的DeepSeek条件记忆模块有所不同。 DeepSeek的Engram模块依赖的是"按需查表"的静态学习路径，而英伟达走的是动态学习的路子，关键在于上下文压缩。闻乐发自凹非寺量子位 | 公众号 QbitAI 提高大模型记忆这块儿，美国大模型开源王者——英伟达也出招了。联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了 TTT-E2E 方法。在128K超长文本上处理速度比全注意力模型快2.7倍，处理2M上下文时提速达35倍，性能还不打折。通过实时学习将关键内容压缩到自身权重中，让模型在测试阶段依然保持学习状态。这样既避免了额外缓存的负担，又能精准捕捉长文本中的核心逻辑。把每个训练序列都模拟成测试序列，先在内循环中对其进行测试时训练，再在外循环中优化模型的初始参数，确保初始状态就能快速适配测试时的学习需求，实现了训练与测试的端到端对齐优化。为了平衡效率与稳定性，TTT-E2E还设计了三项关键优化。一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批，配合8K大小的滑动窗口注意力，既解决了单token梯 ...