Workflow
组内相对优势估计(Group-relative Advantage)
icon
Search documents
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷
机器之心· 2026-01-30 08:49
近年来,大模型在数学推理、代码生成等任务上的突破,背后一个关键技术是 RLVR(Reinforcement Learning with Verifiable Rewards)。 简单来说,RLVR 不是让模型「听人打分」,而是让模型自己尝试多种解法,然后用可验证的规则(如答案是否正确)来反向改进自己。这使得模型能够通过反复 试错不断变强,被广泛应用于当前最先进的推理模型中。 在实际训练中,为了让学习过程更稳定、避免引入额外的价值网络,许多 RLVR 方法(如 GRPO)都会对同一个问题生成一组回答,并在组内进行相对比较。模 型不是直接看「这个回答好不好」,而是看「它在这一组回答中相对好不好」,这就是所谓的 组内优势估计(group-relative advantage), 也是目前几乎所有 group-based 强化学习方法的核心设计。优势估计并不仅仅是一个「评估指标」,而是直接决定策略梯度更新方向的核心信号。 然而,一个长期被忽视的关键问题在于: 组内优势估计并不像人们通常直觉认为的那样是「近似无偏」的。 相反, 北航、北大、UCB、美团 最新的工作揭示了,这种组内优势估计在统计意义上存在 明确且系统性的 ...