科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
GRPO 就像一个树节点,从这里开始开枝散叶。 大语言模型的发展真是日新月异。 从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。 GRPO 已经成为一种大模型通用的强化学习算法,能够用在广泛的后训练任务中,甚至包括让大模型玩 2048: 而就在今年,大模型后训练的研究出现了几个重磅结果,包括 Seed 团队的 DAPO,Qwen 团队的 GSPO,微软团队的 GFPO 等等,而他们无一例外都是对 GRPO 范式的改进。 看这些名字都绕晕了,GRPO 到底有什么魔力,能让各大研究团队绕着它团团转;GRPO 又有什么缺陷,各大团队都要在它身上动刀? 通过这篇文章,我们希望能够深入浅出的解释大模型后训练的原理,近期的技术进化路线,以期为读者构建一个完整的知识体系。 后训练与强化学习 很多人会觉得,强化学习是一个非常古老的概念,和全新的大模型好似格格不入。 我们先从大模型说起。 大众理解的大语言模型的概念似乎很简单,从海量数据中自监督学习出来的一个模型,能够预测文本中下一个出现的词,从而输出语言文本。 强化学习的核心是「反馈」,目标是增加好结果的出现概率,降低坏结果的出 ...