“终身自学习”AI来了,MIT提出自蒸馏微调SDFT,从此告别灾难性遗忘
3 6 Ke·2026-02-02 11:40
让人工智能(AI)模型既能学会新技能,又不忘旧知识,这可能吗? 近日, 麻省理工学院(MIT)团队提出了一种创新方法——自蒸馏微调(SDFT)。该方法使模型在持续学习多项新技能时,不仅准确率超越传统监督微 调,更实现了几乎"零遗忘"的能力积累。 长期以来,AI 系统虽表现强大,却往往在部署后陷入"静态",难以通过参数更新持续进化。其核心挑战正是在于:如何在吸收新知识的同时,不丢失原 有能力。 实验表明,SDFT 能够帮助单一模型在不断学习的过程中,逐步掌握多项技能且不出现性能回退,为实现真正意义上的 "终身学习" AI 系统提供了新路 径。 SDFT如何破解持续学习难题? 要让 AI 像人类一样持续学习,当前的主流路径面临两大障碍。 一方面,基于策略的强化学习虽能有效减少遗忘,却依赖现实中设计极困难的显式奖励函数;另一方面,直接从专家示范中学习的监督微调(SFT)虽简 单易行,但其本质是"离策略"学习。模型被动模仿一个固定的、过去的专家数据分布,一旦开始学习新任务,就极易偏离原有状态,导致 "灾难性遗 忘"——学会新的,忘了旧的。 图 | SFT 通常用于从专家演示数据集中学习,但其离策略特性会导致通用能力的 ...