Workflow
扩散模型强化学习
icon
Search documents
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍
机器之心· 2025-10-07 00:14
清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 —— Diffusion Negative-aware FineTuning (DiffusionNFT) 。该方法首次突破现有 RL 对扩散模型的基本假设,直接在 前向加噪过程(forward process) 上进行优化,在彻底摆 脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。 近年来,强化学习在大语言模型(LLMs)后训练中的巨大成功,催生了人们将类似方法迁移到扩散模型的探索。例如,FlowGRPO 等方法通过将扩散采样过程离 散化为多步决策问题,从而在反向过程上应用策略梯度优化。然而,这一思路存在多重根本性局限: 论文标题:DiffusionNFT: Online Diffusion Reinforcement with Forward Process 论文链接:https://arxiv.org/abs/2509.16117 代码仓库:https://github ...