大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
在大模型微调实践中,SFT(监督微调)几乎成为主流流程的一部分,被广泛应用于各类下游任务和专用场景。比如,在医疗领域,研究人员往往会用领域专属数 据对大模型进行微调,从而显著提升模型在该领域特定任务上的表现。 然而,问题随之而来: SFT 是否会让模型 "遗忘" 原本的通用能力? 过去的研究中,不少文献指出,领域微调固然能带来专用性能的提升,但代价是模型在数学 推理、代码生成、指令跟随等通用 benchmark 上出现显著退化。这种现象被广泛称为 "灾难性遗忘"。然而,这一长期流传的看法或许值得重新审视。 来自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究团队最新发布的一项工作就给出了不同的答案。研究表明, 领域特定的 SFT 并不总是会严重削 弱模型的通用能力 。相反,在训练中采用更小的学习率,模型就可能在两方面取得平衡: 换句话说,遗忘问题可能更多源于训练策略的选择,而不是单单 SFT 这一范式本身。 在通用任务上的能力遗忘被大幅缓解; 在目标领域上的表现依然与大学习率相当。 | Jiacheng Lin1, † | Zhongruo Wang2,1 ...