Workflow
启发式教学
icon
Search documents
7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队
量子位· 2025-06-24 13:36
不圆 发自 凹非寺 量子位 | 公众号 QbitAI Thinking模式当道,教师模型也该学会" 启发式 "教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司 Sakana AI ,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka AI的新方法训练出的7B小模型,在传授推理技能方面,比671B的DeepSeek-R1还要有效。 | Teacher | Student | | | Final model AIME 2024 MATH 500 GPQA Diamond Overall | | | | --- | --- | --- | --- | --- | --- | --- | | N.A. | | Owen-7B | 10.00 | 74.20 | 33.30 | 39.17 | | DeepSeek-R1 (671B) Qwen-7B | | Bespoke-7B | 20.00 | 82.00 | 37.80 | 46.60 | | RLT teacher (7B) | | ...