Grafting(嫁接)

Search documents
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
量子位· 2025-06-20 05:53
一水 发自 凹非寺 量子位 | 公众号 QbitAI 预训练模型能否作为探索新架构设计的"底座" ? 最新答案是:yes! 简单来说,按照研究人员设计好的架构方案从头训练模型,往往是检验一个架构是否有效的重要手段。 但问题在于,从头训练模型的成本也太高了! 对此,包括李飞飞团队在内的研究人员提出了一种被称为 "Grafting(嫁接)" 的新思路—— 直接将预训练好的模型作为"底座",通过修改其组件来研究新架构。 这就好比软件开发中,程序员常基于现有代码修改而非重写,以此省时省力。 基于这一思路,他们重点关注了 DiTs 这一广泛用于图像和视频生成的Transformer模型。 具体而言,这群人先是构建了一个基于DiT-XL/2设计的测试平台,以方便后续研究"嫁接"对模型质量的影响,然后实际使用"嫁接"技术开发了 一系列混合设计。 结果发现,许多混合设计在使用 不到2%的预训练计算量 的情况下,获得了和原来大差不差的模型性能。 将这一方法应用于文生图模型PixArt-Σ,其生成速度提高了1.43倍,但生成图像的质量只下降了不到2%。 以上说明,"嫁接"确实能成为一种 轻量级、高效的架构探索工具 ,可以让研究者 ...
李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
机器之心· 2025-06-10 08:41
机器之心报道 编辑:欣东、陈陈 本文介绍了一种名为「嫁接」的技术,用于在小计算预算下通过编辑预训练 Diffusion Transformers(简称 DiTs)来探索新的模型架构设计。 这种方法允许研究者在不从头开始训练模型的情况下,通过替换模型中的某些算子(如 MLP)来创建新的混合架构,从而在保持模型质量的 同时减少计算量。 模型架构设计在机器学习中扮演着核心角色,与数据、算法、算力和基准测试一样重要。它定义了模型函数、算子选择(如注意力机制、卷积)和配置设定(如 模型深度、宽度)等等模型要素。 尽管如此,由于从头训练模型的成本过高 —— 尤其人们难以获得关于架构设计的深刻洞见(即哪些方案有效、哪些无效)。因此,研究新架构仍是一项挑战,对 生成模型而言尤为如此。 在本文中,来自斯坦福大学、 Liquid AI 等机构的研究者探索了这一问题,即对预训练模型进行架构编辑来研究新架构。 具体而言,该研究提出了一种编辑预训练扩散 transformer(DiT)的简单方法,即 Grafting(嫁接),该方法可以在较小的计算预算下实现新的架构。 嫁接过程如下: (i)激活蒸馏:此阶段通过回归目标(regress ...