GARDO框架 - filings, earnings calls, financial reports, news - Reportify

GARDO框架

Search documents

拒绝Reward Hacking！港科联合快手可灵提出高效强化学习后训练扩散模型新范式

机器之心· 2026-01-25 02:35

在使用强化学习（RL）微调扩散模型（如 Stable Diffusion, Flux）以对齐人类偏好时，我们常面临一个棘手的 "两难困境"：追求高奖励会导致图像质量崩坏（即 Reward Hacking），而为了防止崩坏引入的 KL 正则化又会严重阻碍模型的探索和收敛。最近，来自于香港科技大学，快手可灵 AI，港中文以及爱丁堡大学的研究团队提出了一种全新的框架 GARDO 。它通过门控自适应正则化和多样性感知优化，成功在防止 Reward Hacking 的同时，实现了高效的样本探索和多样性生成。研究工作已经全面开源。论文第一作者何浩然是香港科技大学博士生，研究方向包括强化学习和多模态基础模型等，研究目标是开发下一代可扩展强化学习后训练算法。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。背景与动机： RL 后训练中的陷阱强化学习（RL）在视觉领域的后训练中展现出了不错的效果，逐渐成为当前研究的热点。最近半年，如 flow-grpo，dancegrpo 以及 DiffusionNFT 等工作受到了大家广泛关注。然而，在视觉任务中，定义一个完美的 "奖励函 ...