不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍
这项技术与前几天大火的DeepSeek条件记忆模块有所不同。 DeepSeek的Engram模块依赖的是"按需查表"的静态学习路径,而英伟达走的是动态学习的路子,关键在于 上下文压缩 。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 提高大模型记忆这块儿,美国大模型开源王者——英伟达也出招了。 联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了 TTT-E2E 方法。 在128K超长文本上处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,性能还不打折。 通过实时学习将关键内容压缩到自身权重中,让模型在测试阶段依然保持学习状态。 这样既避免了额外缓存的负担,又能精准捕捉长文本中的核心逻辑。 把每个训练序列都模拟成测试序列,先在 内循环 中对其进行测试时训练,再在 外循环 中优化模型的初始参数,确保初始状态就能快速适配 测试时的学习需求,实现了训练与测试的端到端对齐优化。 为了平衡效率与稳定性,TTT-E2E还设计了三项关键优化。 一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批,配合8K大小的滑动窗口注意力,既解决了单token梯 ...