Workflow
大模型强化学习
icon
Search documents
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 14:09
作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/696732944 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『LLM』技术交流群 本文只做学术分享,如有侵权,联系删文 论文地址:https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文,一作单位是清华 这篇主要有三个部分,1. 从理论和实验上看,DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上(编程比赛)碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周 知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。所以这里就自然引出两个问题,即 1. DPO 相 对 PPO 真的有优势吗?2. 如何让 PPO 也很能刷榜呢? DPO 的缺陷 在调教 PPO 的时候,一种常见的现象是语言模型发现了奖励模型的缺陷,而构 ...
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 08:21
当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。 然而,要实现有效的强化学习,需要解决一个根本性的挑战,即 信用分配问题(credit assignment) :在大语言模型的场景下,如何将整个序列(LLM 的回复)最终的评估结果,归因到序列中具体的决策动作(token)上。 这一问题的困难在于奖励信号非常稀疏 — 只能在序列结束时才能获得明确的成功或失败反馈。 当前主要方法 在强化学习中,通常采用优势值估计(advantage estimation)的方法来解决信用分配问题。目前针对大语言模型的强化学习方法主要分为两类,它们之 间的区别在于优势值估计的粒度不同。 粗粒度的轨迹级 (trajectory-level) 方法,如 DeepSeek R1 使用的 GRPO,只根据最终的奖励为整个序列计算一个优势值。这种方法虽然高效但反馈信号 过于粗糙,LLM 无法对错误回答中正确的部分进行奖励,也无法对正确回答中冗余的部分进行惩罚。 论文题目:Segment ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, wen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80%低熵token不仅可以舍弃,甚至还可能起副作用,所以这篇论文被命名为"超越二八法则"。 此 外,团队还从token熵的角度探究了RL对LLM的主要影响,并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发 ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, Qwen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发现,当大模型进行链式思考(Chain-of-Thought)推理时,token的熵分布呈现出一个独特的模式: 大部分token的熵都很低,只有少 数token表现出高熵特征 。 具体来说,超过50%的token熵值低于0.01,而只有20%的token熵值大于0.672。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80 ...
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心· 2025-06-05 07:14
本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室,研究方向为大模型的推理增 强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。 Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生—— Max Planck 在强化学习中,我们又该如何让熵增符合我们的利益? 近日,来自上海人工智能实验室、清北,UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下: 在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上,我们验证了这一点: 论文标题:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 1. 大模型强化学习中的熵塌缩问题 强化学习的核心挑战在于利用 - 探 ...
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
量子位· 2025-04-02 07:40
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 一个7B奖励模型搞定全学科, 大模型强化学习不止数学和代码 。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办? 腾讯&苏州大学团队提出新框架 RLVR ,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。 除论文外,还开源了奖励模型和多学科数据集。 7B奖励模型搞定全学科 研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。 这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。 像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。 于是研究团队进一步引入 基于模型的软奖励 (model-basedsoft scroing),相比直接给出0或1的二元硬标签,软奖励根据生成式验证器判 断的 ...