残差机制 - filings, earnings calls, financial reports, news - Reportify

残差机制

Search documents

将注意力旋转 90 度！今天，Kimi 的「注意力残差」火了

机器之心· 2026-03-16 10:23

编辑｜冷猫只要接触深度学习神经网络的读者们对「」一定不会陌生。自从 2015 年 ResNet 诞生以来，这种「将输入直接加到输出上」的简单逻辑，统治了几乎所有神经网络架构。但就在刚刚，沿用了十年的残差机制「升级」了。随橙想呢，替代方法竟然是「注意力机制」。就连 OpenAI 「推理模型之父」，主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发，认为应当重新思考之前的一切，「深度学习 2.0」的时代即将到来。这篇颠覆传统残差连接机制的工作来自 Kimi 团队，发布了一项重磅技术报告： Attention Residuals ，该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制，来取代标准的深度递归。时间与深度的对偶要理解 Attention Residuals 是在做什么，我们得先看传统的残差连接 y = x + f (x) 出了什么问题。在大模型向更深、更强演进的过程中，这种残差的加法机制带来了两个副作用：论文作者之一的 Yulun Du 老师道出了该论文的核心思想：将注意力旋转 ...

注意力残差（Attention Residuals）

深度学习2.0

注意力机制

注意力残差（Attention Residuals）

深度学习2.0

注意力机制