Anthropic公布新技术:不靠删数据,参数隔离移除AI危险
机器之心·2025-12-20 04:45

为此,研究者通常会在后训练加入拒答机制等安全措施,希望阻断这些能力的滥用。然而事实证明:面对刻意规避的攻击者,这些防线并不牢固。模型的强大让 它在被保护与被绕过之间处于微妙而脆弱的平衡。 机器之心编辑部 近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险(dual-use risks)。当模型在海量公开互联网数据中学习时,它不仅掌握语言与 推理能力,也不可避免地接触到 CBRN(化学、生物、放射、核)危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。 这促使研究者开始探索在预训练阶段进行干预,从根源上防止模型获得危险能力。 目前的标准做法是数据过滤:在训练前识别并移除有害内容。然而,这一方法存在多项挑战: 这些挑战导致一个不可避免的取舍:要么接受危险内容,要么因为过度清洗而损失大量有价值的通用知识。 为此,Anthropic 提出了 SGTM(Selective Gradient Masking),用一种全然不同的范式来应对这些挑战:它不再试图在训练前完美分类并剔除危险数据,而是在训 练过程中将危险知识定位进模型中专门的参数区域。 方法介绍 SGTM 基于 Gradient Rout ...

Anthropic公布新技术:不靠删数据,参数隔离移除AI危险 - Reportify