无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
量子位·2025-11-19 06:20
最近研究表明,模型的微调过程会严重削弱安全对齐能力,也就是说,模型能力越强反而越危险。 EnchTable团队 投稿 量子位 | 公众号 QbitAI 无需重新训练,也能一键恢复模型的安全意识了。 于是蚂蚁集团联合南洋理工大学针对性推出了模型安全对齐框架—— EnchTable ,可以让模型在微调后依旧保持安全意识。 通过 安全蒸馏+干扰感知融合 两大核心技术,在多个模型架构与任务中实现了安全与效用的最佳平衡,甚至在抗攻击能力上超越了官方 Instruct安全模型。 而且 即插即用 ,完全不影响模型性能。 详细内容如下: 安全对齐具有"可迁移性" 目前陆续出现了多起有关微调模型安全能力下降的事件,其根本问题在于当前的安全对齐机制无法随模型微调而持续生效。 对此,研究团队认为: 安全对齐 (Safety Alignment) 本身是一种具有高度可迁移性 (transferability) 的知识。 这意味着 不需要 在每个微调模型上都"重新学习"一遍安全,而是可以将"安全"作为一种独立的知识模块,从一个已对齐的模型中"提取"出来, 再"注入"到另一个模型中。 而这一发现则将问题从"昂贵的重新训练" 转变为"高效 ...