谷歌刚掀了模型记忆的桌子,英伟达又革了注意力的命
3 6 Ke·2026-01-20 01:12

近期,谷歌的 Nested Learning 引发了一场模型界的记忆地震。 很多人重新意识到,大模型不必永远是「训练完就封存」的只读权重,它也可以在推理过程中继续变化。在 Nested Learning 里,当模型 读到新的上下文时,它不只是把文本塞进注意力的缓存里临时翻找,而是允许自己在推理过程中更改参数,让新信息变成它内部记忆的 一部分。 但就在人们还在消化这个想法时,英伟达在2025年12月28日给出了一个更激进的答案,一篇名为《End-to-End Test-Time Training for Long Context》的论文。谷歌的记忆增强路线,还在努力解决记忆问题,把过去重要的东西保存得更完整。但英伟达的研究人员则认为,记忆 其实就是学习,「记住」就是「继续训练」。 如果沿着时间线往回翻,你会发现 TTT(test-time training)并不是凭空出现的发明。 早在2013年,Mikolov 等人就在语言模型里尝试过 dynamic evaluation。当时放的是让模型解除冻结,在测试文本上继续用下一词预测的 交叉熵损失 CE(也就是我们最经常理解的大语言模型的参数学习损失目标)做小步梯度 ...