注意力残差（Attention Residuals） - filings, earnings calls, financial reports, news - Reportify

注意力残差（Attention Residuals）

Search documents

融资 1200亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

AI前线· 2026-03-17 07:53

作者 | 允毅连马斯克、Andrej Karpathy 都纷纷点赞，DeepSeek 和 Kimi 前后脚都盯上的 "残差连接" ，到底是什么？最近，Kimi 放出一篇重磅新论文，瞄准一个过去十年几乎没人动过的 Transformer 底层根基：残差连接（Residual Connection）。残差连接由何恺明于 2015 年在 ResNet 论文中提出，此后便成为深度学习领域的标配。简单来说，可以把大模型的 Transformer 架构，想象成一支几十人排成长队的"传话小组"，那么残差连接就像一条规定：每个工人听完前面所有人的话后，都往里面再补一句，然后原封不动往后传。这套规则长这样：但这会带来一个麻烦：队尾的工人收到的话，是前面几十个工人的内容全堆在一起的，越往后话越乱、越长，前面工人说的重点被埋住了，后面工人加的内容也没人听得清，AI 就变笨了。这叫"稀释问题"。于是，Kimi 想到把 "注意力机制" 引进来解决这一问题，它提出一个新的规则： "注意力残差"（Attention Residuals）。如同给工人们配备了"智能筛选器"，不用再全盘收下前面堆出来的大杂烩， ...

残差连接（Residual Connection）

注意力机制

注意力残差（Attention Residuals）

分块注意力残差（Block AttnRes）

残差连接（Residual Connection）

注意力机制

注意力残差（Attention Residuals）

分块注意力残差（Block AttnRes）