软奖励

Search documents
6大基准全面碾压!TW-GRPO刷新视频推理天花板,CLEVRER准确率突破50.4%!
机器人大讲堂· 2025-07-06 05:23
随着多模态大语言模型( MLLMs)的快速发展, 其在视频推理等前沿任务中快速进化,不断突破性能天花 板。而 强化学习( RL)作为推动这场技术革命的关键引擎,为大语言模型注入了强大的推理能力。 DeepSeek-R1凭借纯RL优化,让模型推理能力实现质的飞跃;VideoR1引入T-GRPO,赋予模型拆解视频 时空逻辑的 "透视眼";VideoChat-R1借助基于 GRPO 的多任务联合微调,让模型在视频理解与多步推理 上表现得更加 "聪明伶俐",相关成果不断涌现…… 尽管 基 RL驱动的优化在指标提升上成绩亮眼, 但 在面对复杂多模态任务时,依然存在两大拦路虎: 一方 面,思维链推理应用到多模态时 "水土不服",不仅产出的推理过程冗长没重点,训练目标还常忽略关键时空 线索,拖慢学习效率;另一方面,现有依赖单选题问答的稀疏二元奖励信号太" 简单 粗暴 ",只认可全对答 案,埋没部分正确内容。不过幸运的是,视频定位研究已证实,软奖励信号能稳定学习过程、提升精度 。 ▍提出TW-GRPO框架:革新加权机制与奖励设计 面对多模态大语言模型在视频推理任务中存在的推理质量和奖励粒度等挑战,来自 中山大学、兰州大学、合 ...
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 07:40
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一个7B奖励模型搞定全学科, 大模型强化学习不止数学和代码 。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办? 腾讯&苏州大学团队提出新框架 RLVR ,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。 除论文外,还开源了奖励模型和多学科数据集。 7B奖励模型搞定全学科 研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。 这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。 像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。 于是研究团队进一步引入 基于模型的软奖励 (model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判 断的 ...