可验证奖励

Search documents
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
3 6 Ke· 2025-06-20 12:00
超级智能(Superintelligence)是处于 AGI 之上、甚至通用能力超过人类的更高维 AI 发展方向。 学术头条在不改变原文大意的情况下,对整体内容做了精编,如下: 然而,在 Meta AI 研究员 Jack Morris 看来,Altman 提到超级智能的"工程问题",在于"构建大量适用于不同任务的 RL 环境,并训练 LLM 同时处理所有 这些任务"。他认为,这一由 OpenAI 等公司当前大力推进的路径——基于 LLM 的 RL——根本无法构建超级智能。 "我谦卑的预测是:LLM 将继续在训练分布内的任务上变得更好。随着我们收集更多类型的任务并进行训练,这将产生在广泛任务上越来越有用的 LLM。但它不会成为一个单一的超级智能模型。" Morris 在一篇题为"Superintelligence, from First Principles"的博客中,探讨了构建超级智能的 3 种可能方式:完全由监督学习(SL)、来自人类验证者 的强化学习(RL)、来自自动验证器的 RL。 扎克伯格不惜以一亿美金年薪挖角 OpenAI 等竞争对手的动作背后,便暴露了 Meta 等头部玩家追求"超级智能"的巨大野 ...
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
Hua Er Jie Jian Wen· 2025-06-09 10:47
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的 重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。 6月8日,AI研究公司SemiAnalysis发布长篇报告《强化学习:环境、奖励破解、智能体、扩展数据》,深度剖析了强化学习的工作原理以及影响 因素,并预测了后续AI发展趋势。 报告表示,强化学习(RL)或成为AGI前最后关键范式,其理密集型特性带来了算力挑战。此外,高质量数据是强化学习护城河,AI设计AI的循 环加速技术迭代。 1. 强化学习(RL)或成为AGI前最后关键范式:强化学习是推动大模型推理能力跃升的核心技术,尤其在思维链(CoT)生成和长 程任务连贯性上表现突出,被视作实现AGI前的终极技术路径。 2. 可验证奖励场景率先商业化:编码、数学等奖励函数明确的任务(如SWE-Bench性能提升30%+)已实现落地,OpenAI的o1、 DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过"LLM评判者+人工评分标准"构建奖励函数(如HealthBench医疗 评估),OpenAI、阿里Q ...
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 08:09
机器之心报道 编辑:泽南、+0 我们训练了这么久,都在训练些什么? 这是今年最「好笑」的一篇论文。 本文一出,所有的大语言模型(LLM)+ 强化学习(RL)都要被质疑是否有意义了。 这周二,一篇来自华盛顿大学、艾伦人工智能实验室、伯克利的论文引爆了 AI 界。 作者驳斥了最近大模型领域盛行的强化学习方式,他们发现: 使用虚假奖励训练 Qwen2.5-Math-7B 模型也可以提高 MATH-500 的成绩,如果是随机奖 励,成绩能提高 21%,如果是错误奖励,成绩能提升 25%(真实奖励能提升 28.8%)。 这是怎么一回事?大模型的训练技巧真的有用吗?该工作的作者写了一篇博客进行了介绍: 质疑强化学习 (RLVR) 传统观点 近一段时间,可验证奖励强化学习(RLVR)已成为增强大型语言模型(LLM)推理能力的标准方法。传统观点认为,高质量的监督信号对于有效的 RLVR 训 练至关重要。最近的研究挑战了这一假设,表明使用 RLVR 对单个样本或无监督样本进行训练仍然可以在 Qwen-Math 模型上取得显著的进步。 但是,我们不禁要问:单样本或无监督 RLVR 中的训练信号来自哪里?为了提供有意义的 RLVR ...
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 09:02
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。 这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现, 和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。 本文第一作者王宜平是华盛顿大学的博士生,其导师、通讯作者杜少雷为华盛顿大学Assistant Professor;另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。 最近, 大型语言模型(LLM)在推理能力方面取得了显著进展,特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习 (Reinforcement Learni ...