Workflow
经验驱动的训练方法
icon
Search documents
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
量子位· 2025-10-23 05:18
ExGRPO团队 投稿 量子位 | 公众号 QbitAI 大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了 一套经验管理和学习框架ExGRPO —— 通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。 实验结果显示,与传统的在线策略RLVR (基于可验证奖励的强化学习) 方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。 尤其在一些极具挑战性的任务 (如AIME数学竞赛题) 上,提升效果更为明显,证明了ExGRPO在攻克复杂推理难题上的有效性。 而且该研究也揭示了一些有趣的现象,比如滚雪球效应。 不过在展开之前,我们先来回答一个核心问题—— 大模型推理的下一步,为什么我们需要"经验驱动"的训练方法? 2025年初以来,赋能大模型推理能力的技术路线以基于可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards) 为 主导。 简单来说,就是让模型像个学生一样,不断地"刷题" (生成推理步骤) ,然后由"判卷老师" ...