推理蒸馏
Search documents
「熟悉的陌生人」才是「好老师」?复旦提出简单指标,找出推理蒸馏中真正有教学价值的数据
机器之心· 2026-01-28 00:38
什么样的思维链,能「教会」学生更好地推理? 许多人都有这样的学习体验:内容过于熟悉,难以带来新的收获;内容过于陌生,又往往超出理解能力,难以消化吸收。 类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链,可能过于晦涩,学生模型难以掌握其推理模式;而与学生认知相近的教师 模型,其推理轨迹又常常缺乏新信息,难以带来实质提升。 因此,要获得理想的蒸馏效果,关键在于 为不同学生模型选择恰好合适的数据, 在「熟悉」与「陌生」之间找到最佳平衡。然而,现有基于概率的筛选或度量方 法(如 Perplexity)难以刻画这种细粒度的适配关系。 那么,是否存在一种直观且易于计算的数据适配度指标,能够量化这种平衡? 来自 复旦大学和上海人工智能实验室的研究者 提出了一种简单而有效的度量方法, Rank-Surprisal Ratio (RSR): RSR 从学生模型的视角出发,综合考虑样本的信息量与对齐程度,旨在找出那些 既足够「新」,又未超出学生认知边界 的推理数据。 在大规模蒸馏实验中,RSR 与学生模型后训练性能的相关性高达 0.86,并且可以直接用于筛选推理轨迹以及选择教师模型, 无需实际训练即可找 ...
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 04:00
「知其然,亦知其所以然。」 文章验证了三个核心发现: 1. 规模带来增益:随着模型变大、计算力增强,RM-R1 的推理链训练方法效果越好,性能几乎线性提升; 这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职 责;但现有模型往往只给出一个分数,却难以解释其依据。缺乏推理的奖励,就如「知其然而不知其所以然」,既难以建立信任,也难以指导更优的学习。 伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架,将奖励建模重新定义为推理任务,提出了推理奖励模型(Reasoning Reward Models, ReasRMs)。RM-R1 关注于如何通过整合推理能力来增强奖励模型,使其能够更准确地对模型输出进行评估和打分,从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程,提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通:想让模型「会推理」,得精准划分问题类型、并对推理过程进行定向蒸馏训练,才能带来真正泛化的提升; 3. 推理比直接输出答案更通用:相比传统的直接监督,RM-R1 的推理能力更稳 ...