Workflow
NeurIPS 25 | GRPO进阶版来了,GVPO重构大模型后训练范式
机器之心·2025-10-14 02:06

大模型后训练(post-training)正在成为 AI 进化的关键一环。从最早的 SFT(监督微调),再到近来大火的 GRPO,一条核心主线贯穿始终:如何让大模型具有更 强的推理能力、更好地对齐人类偏好,同时保持稳定和高效。 然而,GRPO 虽然在 DeepSeek-R1 等项目中大放异彩,但其训练不稳定、超参数敏感的问题一直限制其大规模落地。 现在,作业帮团队联合香港科技大学(广州)在 NeurIPS 2025 上提出了全新方法: GVPO(Group Variance Policy Optimization) 。GVPO 通过避免重要性采样 解决了 GRPO 的稳定性难题,并能在理论上提供了唯一最优解保证,并且在实验中表现全面超越现有方法。 论文标题: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training GVPO 设计动机 受到 DPO 的启发,研究团队也希望在 GRPO 的场景(即每个 prompt 进行多次采样)下,同样能够利用 KL 约束下 Reward 最大化 的解析解: $R_{\the ...