Workflow
GARDO框架
icon
Search documents
拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
机器之心· 2026-01-25 02:35
在使用强化学习(RL)微调扩散模型(如 Stable Diffusion, Flux)以对齐人类偏好时,我们常面临一个棘手的 "两难困境":追求高奖励会导致图像质量崩坏(即 Reward Hacking),而为了防止崩坏引入的 KL 正则化又会严重阻碍模型的探索和收敛。 最近,来自于 香港科技大学, 快手可灵 AI,港 中 文以及爱丁堡大学的研究团队 提出了一种 全新的框架 GARDO 。它通过门控自适应正则化和多样性感知优 化,成功在防止 Reward Hacking 的同时,实现了高效的样本探索和多样性生成。研究工作已经全面开源。 论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和多模态基础模型等,研究目标是开发下一代可扩展强化学习后训练算法。通讯作者为香港 科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。 背景 与动机: RL 后训练中的陷阱 强化学习(RL)在视觉领域的后训练中展现出了不错的效果,逐渐成为当前研究的热点。最近半年,如 flow-grpo,dancegrpo 以及 DiffusionNFT 等工作受到了大 家广泛关注。 然而,在视觉任务中,定义一个完美的 "奖励函 ...