北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练
机器之心·2025-10-15 02:54
AIME2024 上的学习表现 技术方案概述:用「风险度量」破局,MVaR + 捆绑策略双管齐下 为解决传统均值优化的缺陷, 北大团队提出 RiskPO ,核心突破在于 将风险规避(risk-averse)理念融入优化目标, 用「关注奖励分布左尾(难任务)」替代 「追求整体均值」,从根本上引导模型突破推理短板。 该项目由北京大学彭一杰教授课题组完成,第一作者为任韬,其他作者包括江金阳、杨晖等。 研究背景与挑战:大模型后训练陷入「均值陷阱」,推理能力难破界 当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范 式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是, 以 GRPO 为代表的主流方法正陷入 「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对 全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。最终结果是, 大模型看似在 Pass@1 ...