推理蒸馏 - filings, earnings calls, financial reports, news

推理蒸馏

Search documents

「熟悉的陌生人」才是「好老师」？复旦提出简单指标，找出推理蒸馏中真正有教学价值的数据

机器之心· 2026-01-28 00:38

什么样的思维链，能「教会」学生更好地推理？许多人都有这样的学习体验：内容过于熟悉，难以带来新的收获；内容过于陌生，又往往超出理解能力，难以消化吸收。类似的现象同样出现在大语言模型的推理蒸馏中。来自能力更强的教师模型的思维链，可能过于晦涩，学生模型难以掌握其推理模式；而与学生认知相近的教师模型，其推理轨迹又常常缺乏新信息，难以带来实质提升。因此，要获得理想的蒸馏效果，关键在于为不同学生模型选择恰好合适的数据，在「熟悉」与「陌生」之间找到最佳平衡。然而，现有基于概率的筛选或度量方法（如 Perplexity）难以刻画这种细粒度的适配关系。那么，是否存在一种直观且易于计算的数据适配度指标，能够量化这种平衡？来自复旦大学和上海人工智能实验室的研究者提出了一种简单而有效的度量方法， Rank-Surprisal Ratio (RSR)： RSR 从学生模型的视角出发，综合考虑样本的信息量与对齐程度，旨在找出那些既足够「新」，又未超出学生认知边界的推理数据。在大规模蒸馏实验中，RSR 与学生模型后训练性能的相关性高达 0.86，并且可以直接用于筛选推理轨迹以及选择教师模型，无需实际训练即可找 ...

推理蒸馏

Informative Alignment Challenge

Rank-Surprisal Ratio (RSR)

人工智能

Rank-Surprisal Ratio (RSR)

推理蒸馏

Informative Alignment Challenge

Rank-Surprisal Ratio (RSR)

人工智能

Rank-Surprisal Ratio (RSR)

从打分器到思考者：RM-R1用推理重塑模型价值判断

机器之心· 2025-05-31 04:00

「知其然，亦知其所以然。」文章验证了三个核心发现： 1. 规模带来增益：随着模型变大、计算力增强，RM-R1 的推理链训练方法效果越好，性能几乎线性提升；这句儒家命题强调，真正的理解不仅在于结果，更在于推理过程。如今，在大型语言模型的后训练阶段，奖励模型承担着桥接模型行为与人类价值的重要职责；但现有模型往往只给出一个分数，却难以解释其依据。缺乏推理的奖励，就如「知其然而不知其所以然」，既难以建立信任，也难以指导更优的学习。伊利诺伊大学香槟分校的研究团队提出了 RM-R1 框架，将奖励建模重新定义为推理任务，提出了推理奖励模型（Reasoning Reward Models, ReasRMs）。RM-R1 关注于如何通过整合推理能力来增强奖励模型，使其能够更准确地对模型输出进行评估和打分，从而更好地与人类偏好对齐。RM- R1 通过生成结构化的评估标准和推理过程，提升了奖励模型的可解释性和性能。 2. 简单套用旧 RL 策略行不通：想让模型「会推理」，得精准划分问题类型、并对推理过程进行定向蒸馏训练，才能带来真正泛化的提升； 3. 推理比直接输出答案更通用：相比传统的直接监督，RM-R1 的推理能力更稳 ...