Diffusion Transformers

Search documents
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
机器之心· 2025-06-26 06:10
本文 由 中国人民大学高瓴人工智能学院李崇轩团队和 字节跳动 Seed团队 共同完成。 第一作者郑晨 宇 是中国人民大学高瓴人工智能学院 二年级 博士生, 主要研究方向为基础模型的优化、泛化和可扩 展性理论, 导师为李崇轩副教授,论文为 其 在 字节跳动 Seed 实习期间完成。 第二作者张新雨是字 节跳动研究员,主要研究方向为视觉生成模型。 李崇轩副教授为 唯一 通讯作者。 近年来, d iffusion Transformers已经成为了现代视觉生成模型的主干网络 。随着数据量和任务复杂 度的进一步增加, d iffusion Transformers 的规模也在快速增长。 然而在模型进一步 扩大 的过程 中,如何调 得较好的超 参 (如学习率) 已经成为了一个巨大的问题,阻碍了大规模 diffusion Transformers释放 其 全部的潜能。 为此,人大高瓴李崇轩团队和字节跳动 Seed团队的研究员引入了大语言模型训练中的 μP理论 ,并将 其扩展到 diffusion Transformers 的训练中。 μP通过调整网络不同模块的初始化和学习率,实现不 同大小diffusion Transf ...
李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
机器之心· 2025-06-10 08:41
机器之心报道 编辑:欣东、陈陈 本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。 这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 MLP)来创建新的混合架构,从而在保持模型质量的 同时减少计算量。 模型架构设计在机器学习中扮演着核心角色,与数据、算法、算力和基准测试一样重要。它定义了模型函数、算子选择(如注意力机制、卷积)和配置设定(如 模型深度、宽度)等等模型要素。 尽管如此,由于从头训练模型的成本过高 —— 尤其人们难以获得关于架构设计的深刻洞见(即哪些方案有效、哪些无效)。因此,研究新架构仍是一项挑战,对 生成模型而言尤为如此。 在本文中,来自斯坦福大学、 Liquid AI 等机构的研究者探索了这一问题,即对预训练模型进行架构编辑来研究新架构。 具体而言,该研究提出了一种编辑预训练扩散 transformer(DiT)的简单方法,即 Grafting(嫁接),该方法可以在较小的计算预算下实现新的架构。 嫁接过程如下: (i)激活蒸馏:此阶段通过回归目标(regress ...