Workflow
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
量子位·2025-06-20 05:53

一水 发自 凹非寺 量子位 | 公众号 QbitAI 预训练模型能否作为探索新架构设计的"底座" ? 最新答案是:yes! 简单来说,按照研究人员设计好的架构方案从头训练模型,往往是检验一个架构是否有效的重要手段。 但问题在于,从头训练模型的成本也太高了! 对此,包括李飞飞团队在内的研究人员提出了一种被称为 "Grafting(嫁接)" 的新思路—— 直接将预训练好的模型作为"底座",通过修改其组件来研究新架构。 这就好比软件开发中,程序员常基于现有代码修改而非重写,以此省时省力。 基于这一思路,他们重点关注了 DiTs 这一广泛用于图像和视频生成的Transformer模型。 具体而言,这群人先是构建了一个基于DiT-XL/2设计的测试平台,以方便后续研究"嫁接"对模型质量的影响,然后实际使用"嫁接"技术开发了 一系列混合设计。 结果发现,许多混合设计在使用 不到2%的预训练计算量 的情况下,获得了和原来大差不差的模型性能。 将这一方法应用于文生图模型PixArt-Σ,其生成速度提高了1.43倍,但生成图像的质量只下降了不到2%。 以上说明,"嫁接"确实能成为一种 轻量级、高效的架构探索工具 ,可以让研究者 ...