残差机制
Search documents
将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了
机器之心· 2026-03-16 10:23
编辑|冷猫 只要接触深度学习神经网络的读者们对「 」一定不会陌生。 自从 2015 年 ResNet 诞生以来,这种「将输入直接加到输出上」的简单逻辑,统治了几乎所有神经网络架构。 但就在刚刚,沿用了十年的残差机制「升级」了。随橙想呢,替代方法竟然是 「注意力机制」 。 就连 OpenAI 「推理模型之父」,主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发,认为应当重新思考之前的 一切, 「深度学习 2.0」的时代即将到来 。 这篇颠覆传统残差连接机制的工作来自 Kimi 团队 ,发布了一项重磅技术报告: Attention Residuals ,该方法旨在通过对前序层进行学习到的、依赖输入的注意力 机制,来取代标准的深度递归。 时间与深度的对偶 要理解 Attention Residuals 是在做什么 ,我们得先看传统的残差连接 y = x + f (x) 出了什么问题。 在大模型向更深、更强演进的过程中,这种残差的加法机制带来了两个副作用: 论文作者之一的 Yulun Du 老师道出了该论文的核心思想: 将注意 力旋 转 ...