μP理论

Search documents
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
机器之心· 2025-06-26 06:10
本文 由 中国人民大学高瓴人工智能学院李崇轩团队和 字节跳动 Seed团队 共同完成。 第一作者郑晨 宇 是中国人民大学高瓴人工智能学院 二年级 博士生, 主要研究方向为基础模型的优化、泛化和可扩 展性理论, 导师为李崇轩副教授,论文为 其 在 字节跳动 Seed 实习期间完成。 第二作者张新雨是字 节跳动研究员,主要研究方向为视觉生成模型。 李崇轩副教授为 唯一 通讯作者。 近年来, d iffusion Transformers已经成为了现代视觉生成模型的主干网络 。随着数据量和任务复杂 度的进一步增加, d iffusion Transformers 的规模也在快速增长。 然而在模型进一步 扩大 的过程 中,如何调 得较好的超 参 (如学习率) 已经成为了一个巨大的问题,阻碍了大规模 diffusion Transformers释放 其 全部的潜能。 为此,人大高瓴李崇轩团队和字节跳动 Seed团队的研究员引入了大语言模型训练中的 μP理论 ,并将 其扩展到 diffusion Transformers 的训练中。 μP通过调整网络不同模块的初始化和学习率,实现不 同大小diffusion Transf ...