ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心·2025-06-27 08:06
本文第一作者为北京邮电大学副教授、彩云科技首席科学家肖达,其他作者为彩云科技算法研究员孟庆 业、李省平,彩云科技CEO袁行远。 残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度 学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限 制了信息在跨层间的高效传递。 彩 云 科 技 与 北 京 邮 电 大 学 近 期 联 合 提 出 了 一 个 简 单 有 效 的 残 差 连 接 替 代 : 多 路 动 态 稠 密 连 接 (MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的 效率。 大规模语言模型预训练实验表明, 仅增加 0.23% 的参数量和 0.4% 的计算量,采用该架构的 2.8B 参数量 MUDDPythia 模型即可在 0-shot 和 5-shot 评估中分别媲美 6.9B 参数量(~2.4 倍)和 12B 参数量(~4.2 倍)的 Pythia 模型, 表明了 MU ...