LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
机器之心·2025-12-07 04:33

机器之心报道 机器之心编辑部 如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要。由于语言具有强烈 的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。 然而,主流 RL 算法(如 REINFORCE 与 GRPO)普遍采用基于 token 的优化目标。这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性 与训练稳定性的担忧,因此已经有研究尝试直接使用序列级优化目标。 此外,token 级优化目标在混合专家(MoE)模型的 RL 训练中带来了新的挑战,比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性。由此引 出的关键问题是:在什么条件下,用 token 级目标优化序列级奖励是合理的?有效程度又是怎样的? 针对这些问题, 阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法 。核心洞察是: 为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token 级目标作为其一阶近似 。这一近似在以下两种偏差都足够小的条件下才成立 ...