大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
机器之心·2025-08-13 00:52
本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言模型后训练。刘悦,中国科学院大学在读 指导老师:万方,中国科学院大学计算机学院副教授,博导。叶齐祥,中国科学院大学电子学院教授,博导。 崔磊,微软亚洲研究院通用人工智能组(GenAI) 首席研究经理。韦福如,微软亚洲研究院通用人工智能组(GenAI)杰出科学家。 近年来,强化学习(RL)在大型语言模型(LLM)的微调过程中,尤其是在推理能力提升方面,取得了显著的成效。传统的强化学习方法,如近端策略优化 (Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜 力。然而,尽管它们在许多场景下都表现良好,仍然 面临着在训练过程中不 稳定 的问题 ,尤其是在处理带有极端重要性加权奖励时。几何平均策略优化 (Geometric-Mean Policy Optimization,GMPO),作为 GRPO 的稳定化版本,解决这一问题。本文将深入探讨 GM ...