Rank-Surprisal Ratio (RSR)
Search documents
「熟悉的陌生人」才是「好老师」?复旦提出简单指标,找出推理蒸馏中真正有教学价值的数据
机器之心· 2026-01-28 00:38
什么样的思维链,能「教会」学生更好地推理? 许多人都有这样的学习体验:内容过于熟悉,难以带来新的收获;内容过于陌生,又往往超出理解能力,难以消化吸收。 类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链,可能过于晦涩,学生模型难以掌握其推理模式;而与学生认知相近的教师 模型,其推理轨迹又常常缺乏新信息,难以带来实质提升。 因此,要获得理想的蒸馏效果,关键在于 为不同学生模型选择恰好合适的数据, 在「熟悉」与「陌生」之间找到最佳平衡。然而,现有基于概率的筛选或度量方 法(如 Perplexity)难以刻画这种细粒度的适配关系。 那么,是否存在一种直观且易于计算的数据适配度指标,能够量化这种平衡? 来自 复旦大学和上海人工智能实验室的研究者 提出了一种简单而有效的度量方法, Rank-Surprisal Ratio (RSR): RSR 从学生模型的视角出发,综合考虑样本的信息量与对齐程度,旨在找出那些 既足够「新」,又未超出学生认知边界 的推理数据。 在大规模蒸馏实验中,RSR 与学生模型后训练性能的相关性高达 0.86,并且可以直接用于筛选推理轨迹以及选择教师模型, 无需实际训练即可找 ...