李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
机器之心·2025-06-10 08:41
机器之心报道 编辑:欣东、陈陈 本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。 这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 MLP)来创建新的混合架构,从而在保持模型质量的 同时减少计算量。 模型架构设计在机器学习中扮演着核心角色,与数据、算法、算力和基准测试一样重要。它定义了模型函数、算子选择(如注意力机制、卷积)和配置设定(如 模型深度、宽度)等等模型要素。 尽管如此,由于从头训练模型的成本过高 —— 尤其人们难以获得关于架构设计的深刻洞见(即哪些方案有效、哪些无效)。因此,研究新架构仍是一项挑战,对 生成模型而言尤为如此。 在本文中,来自斯坦福大学、 Liquid AI 等机构的研究者探索了这一问题,即对预训练模型进行架构编辑来研究新架构。 具体而言,该研究提出了一种编辑预训练扩散 transformer(DiT)的简单方法,即 Grafting(嫁接),该方法可以在较小的计算预算下实现新的架构。 嫁接过程如下: (i)激活蒸馏:此阶段通过回归目标(regress ...