Workflow
KL散度
icon
Search documents
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
机器之心· 2025-07-01 09:34
背景 | 基于似然的生成模型 近年来,扩散模型(Diffusion Models)和自回归模型(Autoregressive Models)在图像生成中占据 主导地位,如 NVIDIA 的 EDM 系列扩散模型和字节跳动以 VAR 为代表的视觉自回归模型。相比 GAN(Generative Adversarial Networks)这类直接优化数据生成过程的隐式生成模型,扩散模型和 自回归模型均属于 基于似然的生成模型 (Likelihood-Based Generative Model),它们显式估计数 据的对数似然(log-likelihood),具有 训练稳定、样本多样性强、容易规模化的特点 。 文章一作郑凯文为清华大学三年级博士生,研究方向为深度生成模型,曾提出流式扩散模型最大似然估 计改进技术 i-DODE,扩散模型高效采样器 DPM-Solver-v3,扩散桥模型采样器 DBIM 以及掩码式 离散扩散模型采样器 FHS 等。 清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范 式 —— 直接判别优化(DDO)。该方法将基于似然的生成模 ...
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 01:28
选自 作者:Nando de Freitas 机器之心编译 别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始,然后逐步讲解扩散、流匹配,以及看看这些技术接下来会如何发展。 话说回来,Freitas 有这个想法时还是 4 月 24 日,到今天为止,他已经更新了多篇帖子,每篇都干货满满。 由于涉及的内容需要费点脑细胞来思考,在更新了几篇后,Freitas 抱怨道:「随着数学知识的增多,自己 X 上的读者人数正在下降。」 | (5 17 16 ♡ 112 | | --- | | III 16K | | 3 | 或许,太硬核的东西,浏览量确实不会太高。 不过,遗憾归遗憾,这些帖子对于那些想学习 RL、从事大模型的人非常有帮助。 Freitas 也表示,他会不断更新内容,感兴趣的读者可以随时关注。 接下来,我们看看最近几篇帖子内容。 无监督学习、监督学习、强化学习终极定论尚未形成 监督学习 对应于最基础的模仿形式:简单的行为复制。它通过最大似然估计,将世界状态(如文本问题)映射到 ...