深度学习2.0 - filings, earnings calls, financial reports, news

深度学习2.0

Search documents

第一财经· 2026-03-21 06:16

2026.03. 21 但很快有开发者发现， Composer 2 是基于 Kimi K2.5 微调而来，马斯克也在社交媒体发文表示， " 是的，这就是 Kimi 2.5 。 " Kimi 团队随后以中文热梗 " 听说我，谢谢你，因为有你 " 致谢，被赞 " 温柔中展现技术自信 " 。 | BUND 11075 UT 2 8 1 2 8 1 2 8 1 8 8 1 1 8 5 8 1 1 8 5 8 2 8 1 8 5 8 1 8 5 8 1 8 5 . accounts (anyephere) models, kimi-kilp5-ri-0317-a515-fast | | | --- | --- | | so composer 2 is just Kans 92.5 with RI. at loast rename the model ID | | | 在Curcos: 里便可 Caor AI 的福祉 URL 时刻吸了这个 | | | topper/ts/anyaphere/replace/kima-ki2p5-44-0317-1615-1515-1515 | | | NiS componse 2 赢 ...

将注意力旋转 90 度！今天，Kimi 的「注意力残差」火了

机器之心· 2026-03-16 10:23

编辑｜冷猫只要接触深度学习神经网络的读者们对「」一定不会陌生。自从 2015 年 ResNet 诞生以来，这种「将输入直接加到输出上」的简单逻辑，统治了几乎所有神经网络架构。但就在刚刚，沿用了十年的残差机制「升级」了。随橙想呢，替代方法竟然是「注意力机制」。就连 OpenAI 「推理模型之父」，主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发，认为应当重新思考之前的一切，「深度学习 2.0」的时代即将到来。这篇颠覆传统残差连接机制的工作来自 Kimi 团队，发布了一项重磅技术报告： Attention Residuals ，该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制，来取代标准的深度递归。时间与深度的对偶要理解 Attention Residuals 是在做什么，我们得先看传统的残差连接 y = x + f (x) 出了什么问题。在大模型向更深、更强演进的过程中，这种残差的加法机制带来了两个副作用：论文作者之一的 Yulun Du 老师道出了该论文的核心思想：将注意力旋转 ...

注意力残差（Attention Residuals）

注意力残差（Attention Residuals）