Workflow
Self-Distillation
icon
Search documents
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
机器之心· 2026-02-10 03:46
机器之心编辑部 2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。 当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇: Self-Distillation 。 近年来,基础模型取得了显著的成功,为语言、视觉、机器人等领域的 AI 应用提供了强大的支持。 但在真正落地、长期使用的过程中,研究者逐渐发现:如何让模型在不断吸收新知识的同时,不丢失已有的核心能力 —— 即「持续学习」,正成为制约大 模型进化的关键瓶颈。 传统的强教师依赖范式因成本与数据依赖,难以适配高频的持续进化。 Self-Distillation(自蒸馏) 随之成为破局点 —— 通过合理的上下文引导或反馈机 制 ,模型完全可以构建出一个比当前权重更聪明的临时自我,让模型在没有外部强教师的情况下实现内生增长。 基于这一深刻洞察,由 MIT、ETH Zurich、Meta 及斯坦福等顶尖机构组成的紧密学术圈,在 2026 年 1 月密集发布了三项研究成果。 1.Self-Distillation Enables Continual Learning 在持续学习领域,传统的监督微调(SFT)常因 「灾难性 ...