Workflow
主动式强化学习
icon
Search documents
14B打败671B,微软rStar2-Agent在数学推理上超过DeepSeek-R1
3 6 Ke· 2025-09-02 07:36
现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是测试时扩展(test-time scaling)。 近日,微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中 的工具进行交互,并根据收到的反馈调整其推理方式。 而他们的探索成果便是rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型rStar2-Agent-14B —— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1! 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反 思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。 因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力, ...
14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
机器之心· 2025-09-02 01:27
机器之心报道 编辑:Panda 现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是 测试时扩展(test-time scaling) 。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这 又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。 因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供 的反馈信号中进行推理、验证和学习。 近日,微软研究院的一个研究团队探索了使用 主动式强化学习(agentic reinforcemen t lea rning) 来实现这一目标,也就是说,模型会与专用工具环境中的工具 进行交互,并根据收到的反馈调整其推理方式。 而他们的探索成果便是 rStar2-Agent ,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B ...