强化学习远不是最优，CMU刚刚提出最大似然强化学习

机器之心编辑部在大模型时代，从代码生成到数学推理，再到自主规划的 Agent 系统，强化学习几乎成了「最后一公里」的标准配置。直觉上，开发者真正想要的其实很简单：让模型更有可能生成「正确轨迹」。从概率角度看，这等价于最大化正确输出的概率，也就是经典的最大似然（Maximum Likelihood）目标。然而，一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实：现实中广泛使用的强化学习，并没有真正在做最大似然优化。严格的理论分析显示，强化学习只是在优化最大似然目标的一阶近似 —— 距离我们以为的最优训练目标，其实还差得很远。正是基于这一观察，研究团队对强化学习的目标函数进行了重新审视，提出了最大似然强化学习（Maximum Likelihood Reinforcement Learning）：将基于正确性的强化学习重新刻画为一个潜变量生成的最大似然问题，进一步引入一族以计算量为索引的目标函数，使训练目标能够逐步逼近真正的最大似然优化。论文标题： Maximum Likelihood Reinforcement Learning 论文链接： https: ...