为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位·2025-12-21 05:45
失忆的巨人 非羊 发自 凹非寺 量子位 | 公众号 QbitAI 从小老师就爱说"好记性不如烂笔头",那么我们为什么不给有"记忆缺陷"的大模型配一个小本本记上总结归纳的要点呢? 继著名的"Attention Is All You Need"之后,谷歌新论文再度引爆圈内: 我们可能忽略了AI的"另一半大脑" 。 这篇文章题为 嵌套学习:深度学习架构的幻象 (Nested Learning: The Illusion of Deep Learning Architectures) 在圈内被誉为是"Attention is all you need"V2 你是否曾对AI感到一丝"恨铁不成钢"?你刚刚在对话中详细解释过一个概念,三句话之后它就可能完全遗忘,仿佛从未发生。ChatGPT们上知 天文下知地理,却学不会你今天刚教它的一件小事。 这并非偶然的Bug,而是当前所有大型语言模型 (LLMs) 共同的"先天疾病"—— 数字失忆症 。 为了"治疗"它,过去十年,整个行业几乎只遵循一条黄金定律: 把模型做得更深、更大 。我们不断堆叠Transformer层,追逐万亿参数,相 信"规模即智能",期待着记忆相关的能力也能" ...