Workflow
RLVR框架
icon
Search documents
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 07:40
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一个7B奖励模型搞定全学科, 大模型强化学习不止数学和代码 。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办? 腾讯&苏州大学团队提出新框架 RLVR ,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。 除论文外,还开源了奖励模型和多学科数据集。 7B奖励模型搞定全学科 研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。 这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。 像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。 于是研究团队进一步引入 基于模型的软奖励 (model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判 断的 ...