流匹配对齐 - filings, earnings calls, financial reports, news - Reportify

流匹配对齐

Search documents

可微奖励就该直接微调！用HJB方程颠覆流匹配对齐｜NeurIPS'25

量子位· 2026-03-09 06:05

VGG-Flow团队投稿量子位 | 公众号 QbitAI 用强化学习微调扩散模型，还有更好的办法吗？来自港中深、微软研究院等机构的 VGG-Flow团队给出了一个新思路：既然奖励函数本身是可微的，为什么非要绕弯路用PPO、 GRPO。在大规模生成模型的对齐任务中，通常依赖强化学习，在某个奖励函数上微调模型以贴近人类偏好。而事实上，大部分奖励模型本身是在偏好数据集上训练过的神经网络。既然奖励是可微的，能否直接利用"可微性"本身，高效而稳定地微调流匹配模型？主流做法主要分为两类路径：一条路是把模型当作黑盒，通过像Flow-GRPO那样，把原本确定性的ODE采样过程强行转为随机SDE，适配经典的强化学习框架来采用高方差的策略梯度方法（如PPO、GRPO）。另一条路则更加直接，如ReFL等方法，通过近似手段优化某些取样步对应的奖励值，但这种做法在目标层面上缺乏严格的理论支撑，也往往容易导致过拟合与模式坍塌。那么是否可以走一条新路线？ VGG-Flow 团队回归第一性原理，将奖励微调重新表述为一个连续时间最优控制问题。通过Hamilton–Jacobi–Bellman（HJB）方程 ...

流匹配对齐

连续时间最优控制

Artificial Intelligence

Stable Diffusion 3

流匹配对齐

连续时间最优控制

Artificial Intelligence

Stable Diffusion 3