重要性采样

Search documents
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
机器之心· 2025-08-07 09:42
机器之心报道 机器之心编辑部 众所周知,大型语言模型的训练通常分为两个阶段。 第一 阶段 是「预训练」 ,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。 第二 阶段是「后训练」 ,旨在教会模型如何更好地理解和执行人类指令。 在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。 起初,OpenAI 开创了一种名为 基于 人类反馈的强化学习(RLHF) 的技术,用于改进 ChatGPT。RLHF 的核心是让人类标注员对模型生成的多种响应进行打分, 并选出最优答案作为训练参考。这一过程虽然有效,但也耗时、昂贵且依赖人力,通常需要一支小型但专业的数据标注团队。 DeepSeek 的重要创新在于用 RL 技术自动化了这一环节。算法不再依赖人工逐一评估,而是让模型在探索过程中,通过获得「奖励信号」自主学习正确行为,从 而显著降低了成本,提高了效率,最终能以较低的成本实现高性能。 OpenAI 在 ChatGPT 的训练中采用了 近端策略优化(Proximal Policy Optimization, PPO) 。 ...