科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心报道 编辑:冷猫 GRPO 就像一个树节点,从这里开始开枝散叶。 大语言模型的发展真是日新月异。 从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。 GRPO 已经成为一种大模型通用的强化学习算法,能够用在广泛的后训练任务中,甚至包括让大模型玩 2048: 大众理解的大语言模型的概念似乎很简单,从海量数据中自监督学习出来的一个模型,能够预测文本中下一个出现的词,从而输出语言文本。 但这并不完善,这种理解只突出了大模型「预训练」的过程,而完全忽略了「后训练」这一重要过程。 简单来说,从海量数据中学习的过程称为「预训练」,预训练的结果是让模型掌握了通用语言能力,但仅仅如此,模型生成的内并不一定符合偏好;可能生成冗 长、不准确的内容;可能不符合应用任务的需求。 换句话说, 预训 练后的大模型会说话, 但不一定会「说对话」。 而就在今年,大模型后训练的研究出现了几个重磅结果,包括 Seed 团队的 DAPO,Qwen 团队的 GSPO,微软团队的 GFPO 等等,而他们无一例外都是对 GRPO 范式的改进。 看这些名字都绕晕了,GRPO 到底有什么魔力,能让各大研 ...