流匹配对齐
Search documents
可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25
量子位· 2026-03-09 06:05
VGG-Flow团队 投稿 量子位 | 公众号 QbitAI 用强化学习微调扩散模型,还有更好的办法吗? 来自 港中深 、 微软研究院 等机构的 VGG-Flow团队 给出了一个新思路:既然奖励函数本身是可微的,为什么非要绕弯路用PPO、 GRPO。 在大规模生成模型的对齐任务中,通常依赖强化学习,在某个奖励函数上微调模型以贴近人类偏好。而事实上,大部分奖励模型本身是在偏 好数据集上训练过的神经网络。既然奖励是可微的,能否直接利用"可微性"本身,高效而稳定地微调流匹配模型? 主流做法主要分为两类路径:一条路是把模型当作黑盒,通过像Flow-GRPO那样,把原本确定性的ODE采样过程强行转为随机SDE,适配 经典的强化学习框架来采用高方差的策略梯度方法 (如PPO、GRPO) 。 另一条路则更加直接,如ReFL等方法,通过近似手段优化某些取样步对应的奖励值,但这种做法在目标层面上缺乏严格的理论支撑,也往 往容易导致过拟合与模式坍塌。那么是否可以走一条新路线? VGG-Flow 团队 回归第一性原理,将奖励微调重新表述为一个 连续时间最优控制问题 。通过Hamilton–Jacobi–Bellman(HJB)方程 ...