模型「漂移」新范式,何恺明新作让生成模型无须迭代推理
机器之心·2026-02-08 10:37

训练一个生成模型是很复杂的一件事儿。 从底层逻辑上来看,生成模型是一个逐步拟合的过程。与常见的判别类模型不同,判别类模型通常关注的是将 单个样本映射到对应标签 ,而生成模型则关注 从一 个分布映射到另一个分布。 从大家最熟悉的扩散模型说起,扩散模型,包括一些基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映 射。 但训练扩散模型是一件费时费力的事情,因为其核心计算过程是一个 迭代过程 。 为了尽可能提升生成模型的效率,大量工作致力于 减少扩散的步数 。比较有代表性的一类是蒸馏方法,将一个预训练的多步模型蒸馏为单步模型。另一类研究则 尝试从零开始训练单步扩散模型。例如: 变分自编码器(VAE)通过优化证据下界(ELBO)进行训练,该目标由重建损失和 KL 散度项组成。在采用高斯先验时,经典 VAE 本身就是一步生成模型。然 而,在当今主流应用中,VAE 往往使用由扩散模型或自回归模型学习得到的先验,此时 VAE 更多地充当分词器的角色。 正则化流(Normalizing Flows, NFs)学习从数据到噪声的映射,并通过最大化样本的对数似然进行训练。这类方法 ...