突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位·2025-05-08 06:58
R1-Reward团队 投稿 量子位 | 公众号 QbitAI 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用: …… 而强化学习(RL)在理论上能够对MRM引入长期推理能力,使MRM更加高效。 但如果直接把现有的RL算法(比如Reinforce++)用到训练MRM上,就会出现很多状况,比如,训练过程会 很不稳定 、甚至可能 直接崩掉 : 现在,来自中科院自动化所、清华大学、快手和南京大学的研究团队,在探索如何 利用强化学习来稳定、有效地提升多模态奖励模型的长时 推理能力 方面,取得了新进展: 基于多模态强化学习的工作MM-RLHF(ICML 2025),进一步推出了 R1-Reward 模型。 在现有的多模态奖励模型benchmark的基础上,相比于当前最先进的SOTA模型,实现 5%-15% 的提升。 且随着inference sampleing的数目增多还能进一步增长! 主要贡献 在训练阶段,它可以提供稳定的reward; 在评估阶段,它可以选择更好的sample结果; 单独使用时,它可以直接作为evaluator; 1. 重新定义问题 作者把训练奖励模型这个问 ...