Workflow
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心·2025-06-05 07:14

本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室,研究方向为大模型的推理增 强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。 Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生—— Max Planck 在强化学习中,我们又该如何让熵增符合我们的利益? 近日,来自上海人工智能实验室、清北,UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下: 在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上,我们验证了这一点: 论文标题:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 1. 大模型强化学习中的熵塌缩问题 强化学习的核心挑战在于利用 - 探 ...