深度学习2.0
Search documents
被马斯克认证,Kimi回应
第一财经· 2026-03-21 06:16
2026.03. 21 但很快有开发者发现, Composer 2 是基于 Kimi K2.5 微调而来, 马斯克也在社交媒体发文表 示, " 是的,这就是 Kimi 2.5 。 " Kimi 团队随后以中文热梗 " 听说我,谢谢你,因为有你 " 致谢,被赞 " 温柔中展现技术自信 " 。 | BUND 11075 UT 2 8 1 2 8 1 2 8 1 8 8 1 1 8 5 8 1 1 8 5 8 2 8 1 8 5 8 1 8 5 8 1 8 5 . accounts (anyephere) models, kimi-kilp5-ri-0317-a515-fast | | | --- | --- | | so composer 2 is just Kans 92.5 with RI. at loast rename the model ID | | | 在Curcos: 里便可 Caor AI 的福祉 URL 时刻吸了这个 | | | topper/ts/anyaphere/replace/kima-ki2p5-44-0317-1615-1515-1515 | | | NiS componse 2 赢 ...
将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了
机器之心· 2026-03-16 10:23
编辑|冷猫 只要接触深度学习神经网络的读者们对「 」一定不会陌生。 自从 2015 年 ResNet 诞生以来,这种「将输入直接加到输出上」的简单逻辑,统治了几乎所有神经网络架构。 但就在刚刚,沿用了十年的残差机制「升级」了。随橙想呢,替代方法竟然是 「注意力机制」 。 就连 OpenAI 「推理模型之父」,主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发,认为应当重新思考之前的 一切, 「深度学习 2.0」的时代即将到来 。 这篇颠覆传统残差连接机制的工作来自 Kimi 团队 ,发布了一项重磅技术报告: Attention Residuals ,该方法旨在通过对前序层进行学习到的、依赖输入的注意力 机制,来取代标准的深度递归。 时间与深度的对偶 要理解 Attention Residuals 是在做什么 ,我们得先看传统的残差连接 y = x + f (x) 出了什么问题。 在大模型向更深、更强演进的过程中,这种残差的加法机制带来了两个副作用: 论文作者之一的 Yulun Du 老师道出了该论文的核心思想: 将注意 力旋 转 ...