从打分器到思考者：RM-R1用推理重塑模型价值判断

「知其然，亦知其所以然。」文章验证了三个核心发现： 1. 规模带来增益：随着模型变大、计算力增强，RM-R1 的推理链训练方法效果越好，性能几乎线性提升；这句儒家命题强调，真正的理解不仅在于结果，更在于推理过程。如今，在大型语言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却难以解释其依据。缺乏推理的奖励，就如「知其然而不知其所以然」，既难以建立信任，也难以指导更优的学习。伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架，将奖励建模重新定义为推理任务，提出了推理奖励模型（Reasoning Reward Models, ReasRMs）。RM-R1 关注于如何通过整合推理能力来增强奖励模型，使其能够更准确地对模型输出进行评估和打分，从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程，提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通：想让模型「会推理」，得精准划分问题类型、并对推理过程进行定向蒸馏训练，才能带来真正泛化的提升； 3. 推理比直接输出答案更通用：相比传统的直接监督，RM-R1 的推理能力更稳 ...