告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?
机器之心·2026-01-02 01:55

人类已经走上了创造 AGI(通用人工智能)的道路,而其中一个关键方面是持续学习,即 AI 能通过与环境互动而不断学习新的知识和能力。 想象一下你生命中的第一次机器学习讲座:你或许记不清教授开口说的第一个单词,但那场讲座留给你的直觉和逻辑,此刻正潜移默化地帮助你理解这篇复杂的 论文。这种能力的本质在于 压缩 。 近日,Astera 研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校的一个联合团队提出的 TTT-E2E(端到端测试时训练) 沿着这条 AGI 的必经之路迈出了重要一步。它彻底打破了传统模型在推理时静态不变的局限,让长上下文建模从一种「架构设计」进化为一种「学习问题」。 为此,研究社区已经在探索多种不同的道路,比如开发能够实时更新状态的循环神经网络(RNN),或者试图通过极大的缓存空间来容纳海量历史。然而,真正 的 AGI 或许不应仅仅被动地「存储」信息,而应像人类一样在阅读中「进化」。 该方法可以在测试阶段通过给定上下文的下一个 token 预测持续学习, 将读取的上下文信息压缩至权重参数中 。 编辑|Panda 论文标题:End-to-End Test-Time Training ...