强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心·2026-02-05 07:52

机器之心编辑部 在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。 直觉上,开发者真正想要的其实很简单: 让模型更有可能生成「正确轨迹」 。从概率角度看,这等价于最大化正确输出的概率,也就是经典的最大似然 (Maximum Likelihood)目标。 然而,一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实: 现实中广泛使用的强化学习,并没有真正在做最大似然优化。严格的理论分析显示, 强化学习只是在优化最大似然目标的一阶近似 —— 距离我们以为的最 优训练目标,其实还差得很远。 正是基于这一观察,研究团队对强化学习的目标函数进行了重新审视,提出了最大似然强化学习(Maximum Likelihood Reinforcement Learning):将 基于正确性的强化学习重新刻画为一个潜变量生成的最大似然问题,进一步引入一族 以计算量为索引的目标函数,使训练目标能够逐步逼近真正的最大似然 优化。 论文标题: Maximum Likelihood Reinforcement Learning 论文链接: https: ...

强化学习远不是最优,CMU刚刚提出最大似然强化学习 - Reportify