奖励模型

Search documents
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 04:00
允中 发自 凹非寺 量子位 | 公众号 QbitAI 强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。 然而,其中 奖励模型 的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。 当前,大模型在 Next Token Prediction 和 Test-time Scaling 两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃 升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的 短板。 如何解决? 现在,来自上海人工智能实验室的研究团队提出了一种新的思路: 回答三: 彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩 虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。 对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的"绝对偏好"无法灵活应对不同的定制化场景。 而POLAR 只需要根据不同的参考回复,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型 。 他们找到 ...
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 10:49
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一 名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一, Ruiyi Zhang 和 Sai Ashish Somayajula。 由于多模态输入(图像 + 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分 布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。 数据集质量失衡。现有开源多模态推理数据集存在大量低价值样本,如冗余模态与低难度问题。 若直接用于训练,噪声数据会稀释过程奖励模型对关键推理步骤(如跨模态逻辑衔接)的监督信 号。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖 励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题: 针对上述问题,我们通过双层优化框架,将数据域权重(Domain Weights)作为可学习参数,动态抑 制低质量数据域的影响,同时强化高信息密度数据域(如需要多步跨模态推理的 M3CoT 数据集)的贡 献, ...
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 02:36
机器之心报道 编辑:杜伟、泽南 大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成 的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。 因此,奖励模型对大模型能力来说举足轻重:它既需要能够准确进行评判,又需要足够通用化,覆盖多个知识领域,还需要具备灵活的判断能力,可以处理 多种输入,并具备足够的可扩展性。 7 月 4 日,国内 AI 科技公司昆仑万维发布了新一代奖励模型 Skywork-Reward-V2 系列,把这项技术的上限再次提升了一截。 Skywork-Reward-V2 系列共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,它在七大主流奖励模型评测榜单上全部 获得了第一。 Skywork-Reward-V2 系列模型在主流基准上的成绩。 与此同时,该系列模型展现出了广泛的适用性,它在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风 ...
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 08:09
一水 发自 凹非寺 量子位 | 公众号 QbitAI 全网翘首以盼的 DeepSeek-R2 ,再次被曝推迟! 据The Information报道,由于DeepSeek CEO梁文锋始终对R2的表现不满意,因此R2迟迟未能发布。 此外,他们还援引两位国内知情人士的消息称,R2研发进程缓慢可能是由于 缺少英伟达H20芯片 。 要知道R1的训练总计耗费了3万块H20 (国内特供版) 、1万块H800和1万块H100。 所以在H20吃紧的情况下,预计耗费更多算力资源的R2难免受到波及。 事实上,这不是R2第一次被曝项目延期了,最早能追溯到今年4月—— 一览R2"难产"始末 仔细一梳理,原来人们对R2的期待, 早在V3新版本出来后就开始了 。 去年12月底,DeepSeek发布了至今被视为"性价比代表"的DeepSeek-V3模型。到了今年3月24日,官方发布公告称对V3进行了一次升级, 新版本代号为V3-0324。 虽然官方轻描淡写只说是"小版本升级",但很多人实测下来可一点也不小。 于是人们开始推测,在V3-0324已经取得明显进步的情况下,是不是可以用它来训练R2模型。 这里需要补充一下,DeepSeek主打 ...
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 00:57
周三,DeepSeek在微信群发布帖子称,DeepSeek R1模型已完成"小版本试升级",欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使 用方式保持不变。 DeepSeek R1模型在语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面进行了强化。 DeepSeek并未提供本次更新的更多细节。有网友测评后称,感觉模型的理解能力上了一个层次: 感觉模型的理解能力上了一个层次,比如激活参数部分,R1可以制作交互动画来展示,另外关键信息的逻辑也非常清晰。 编程能力也大幅提升,有网友测评后感叹,太吓人了,1000多行代码一次搞定,没有bug。 还有网友称,编程能力可以和"编程新王"Claude 4一较高下。 随着人工智能竞争升级,DeepSeek发布R1模型更新版。 R1的异军突起引发了全球科技股暴跌,因为投资者开始质疑,是否还需要像微软等硅谷巨头那样投入巨资构建突破性的AI模型和AI服务。 前几个月R2频传要发布 证券时报指出,自以上V3模型的小版本升级之后,DeepSeek的热度就开始下降,使用率也有所回落,并且引发了一些质疑。当前,市场最关心的依然是R2模 型发布。 今年2月,有媒体称 ...
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 04:31
机器之心发布 机器之心编辑部 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战, 尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚 至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工 作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场 ...
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位· 2025-05-08 06:58
R1-Reward团队 投稿 量子位 | 公众号 QbitAI 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用: …… 而强化学习(RL)在理论上能够对MRM引入长期推理能力,使MRM更加高效。 但如果直接把现有的RL算法(比如Reinforce++)用到训练MRM上,就会出现很多状况,比如,训练过程会 很不稳定 、甚至可能 直接崩掉 : 现在,来自中科院自动化所、清华大学、快手和南京大学的研究团队,在探索如何 利用强化学习来稳定、有效地提升多模态奖励模型的长时 推理能力 方面,取得了新进展: 基于多模态强化学习的工作MM-RLHF(ICML 2025),进一步推出了 R1-Reward 模型。 在现有的多模态奖励模型benchmark的基础上,相比于当前最先进的SOTA模型,实现 5%-15% 的提升。 且随着inference sampleing的数目增多还能进一步增长! 主要贡献 在训练阶段,它可以提供稳定的reward; 在评估阶段,它可以选择更好的sample结果; 单独使用时,它可以直接作为evaluator; 1. 重新定义问题 作者把训练奖励模型这个问 ...