Workflow
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
量子位·2025-07-07 06:13

henry 发自 凹非寺 量子位 | 公众号 QbitAI 学好数理化,走遍天下都不怕! 这一点这在大语言模型身上也不例外。 大家普遍认同:具备更强数学能力的模型往往也更智能。 但,常识就是用来打破的。 最近,来自CMU的团队发现,一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。 研究发现, 只有用强化学习(RL)训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调(SFT)训练的模型则表现出有限 的迁移甚至没有迁移。 网友直呼:又一个 苦涩的教训(bitter lesson) 。 这数学题,不做也罢? 很明显,人们训练大模型并不只是让它来做数学题的。 研究者之所以热衷于提高模型的数学表现,是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。 但在此之前,我们有必要知道,对于一个大模型,专门优化数学推理(math reasoning),它在其他任务(推理任务、非推理任务)上会变 得更好,还是更差? 换句话说: 做数学推理训练,会不会帮助或者损害模型在其他领域的能力? 为了解决这一疑问,研究评估了20多个模型在数学推理、其他推理任务(包含医学推理、医学推理、智能体规划)和非推 ...