大模型强化学习 - filings, earnings calls, financial reports, news

大模型强化学习

Search documents

自动驾驶之心· 2025-06-22 14:09

作者 | hzwer 黄哲威编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/696732944 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>点击进入→ 自动驾驶之心『LLM』技术交流群本文只做学术分享，如有侵权，联系删文论文地址：https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文，一作单位是清华这篇主要有三个部分，1. 从理论和实验上看，DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上（编程比赛）碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状，即大部分的开源的榜单上，DPO 占据了领先的位置，但是众所周知，最好的闭源模型 GPT4 和 Claude，用的都是 PPO 方案。所以这里就自然引出两个问题，即 1. DPO 相对 PPO 真的有优势吗？2. 如何让 PPO 也很能刷榜呢？ DPO 的缺陷在调教 PPO 的时候，一种常见的现象是语言模型发现了奖励模型的缺陷，而构 ...

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

机器之心· 2025-06-08 08:21

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。然而，要实现有效的强化学习，需要解决一个根本性的挑战，即信用分配问题（credit assignment）：在大语言模型的场景下，如何将整个序列（LLM 的回复）最终的评估结果，归因到序列中具体的决策动作（token）上。这一问题的困难在于奖励信号非常稀疏 — 只能在序列结束时才能获得明确的成功或失败反馈。当前主要方法在强化学习中，通常采用优势值估计（advantage estimation）的方法来解决信用分配问题。目前针对大语言模型的强化学习方法主要分为两类，它们之间的区别在于优势值估计的粒度不同。粗粒度的轨迹级 (trajectory-level) 方法，如 DeepSeek R1 使用的 GRPO，只根据最终的奖励为整个序列计算一个优势值。这种方法虽然高效但反馈信号过于粗糙，LLM 无法对错误回答中正确的部分进行奖励，也无法对正确回答中冗余的部分进行惩罚。论文题目：Segment ...

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 10:28

梦晨发自凹非寺量子位 | 公众号 QbitAI 近期arxiv最热门论文， wen&清华LeapLab 团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME'24上达到63.5分，AIME'25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME'24的分数更是飙升到了68.1分。经典的二八法则（或帕累托法则）指出，通常80%的结果由20%的关键因素驱动，但剩下80%也是不能轻易舍弃的。但是在大模型强化学习这里，80%低熵token不仅可以舍弃，甚至还可能起副作用，所以这篇论文被命名为"超越二八法则"。此外，团队还从token熵的角度探究了RL对LLM的主要影响，并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。揭开Chain-of-Thought的熵分布密码要理解这项研究，需要先从一个有趣的观察说起：团队发 ...

Artificial Intelligence

Artificial Intelligence

Qwen3-32B

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 10:28

梦晨发自凹非寺量子位 | 公众号 QbitAI 近期arxiv最热门论文， Qwen&清华LeapLab 团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME'24上达到63.5分，AIME'25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME'24的分数更是飙升到了68.1分。揭开Chain-of-Thought的熵分布密码要理解这项研究，需要先从一个有趣的观察说起：团队发现，当大模型进行链式思考（Chain-of-Thought）推理时，token的熵分布呈现出一个独特的模式：大部分token的熵都很低，只有少数token表现出高熵特征。具体来说，超过50%的token熵值低于0.01，而只有20%的token熵值大于0.672。经典的二八法则（或帕累托法则）指出，通常80%的结果由20%的关键因素驱动，但剩下80%也是不能轻易舍弃的。但是在大模型强化学习这里，80 ...

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

机器之心· 2025-06-05 07:14

本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室，研究方向为大模型的推理增强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。 Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化，唯有在熵增符合其利益时方会发生—— Max Planck 在强化学习中，我们又该如何让熵增符合我们的利益？近日，来自上海人工智能实验室、清北，UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下：在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上，我们验证了这一点：论文标题：The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 1. 大模型强化学习中的熵塌缩问题强化学习的核心挑战在于利用 - 探 ...

Artificial Intelligence

Artificial Intelligence

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

量子位· 2025-04-02 07:40

梦晨发自凹非寺量子位 | 公众号 QbitAI 一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？腾讯&苏州大学团队提出新框架 RLVR ，将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。 RLVR使用基于生成模型的软奖励，与传统基于二元规则的奖励相比，在泛化、稳健性和可扩展性方面有显著的提升。除论文外，还开源了奖励模型和多学科数据集。 7B奖励模型搞定全学科研究基于一个有趣的发现：当任务有客观参考答案时，不同大型语言模型在做二元判断(正确/错误)时表现出高度一致性。这或许意味着，并不需要在每个领域都训练一个大规模的奖励模型。相反，直接用现成的大语言模型来充当验证器就能有效。像这样的二元奖励虽然简单直接，但在参考答案缺乏结构化的领域又不直接适用。于是研究团队进一步引入基于模型的软奖励（model-basedsoft scroing），相比直接给出0或1的二元硬标签，软奖励根据生成式验证器判断的 ...

Artificial Intelligence

Artificial Intelligence

RLVR框架

RM - 7B奖励模型