Workflow
最优传输理论
icon
Search documents
DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab
量子位· 2025-03-13 03:28
X-Boundary团队 发自 凹非寺 量子位 | 公众号 QbitAI 最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险—— 当 主流防御方法(SFT/DPO/GA/CB) 应用在推理模型上,一个尖锐的矛盾浮出水面: 模型的安全防线每加固一分,其智能水平就衰退 一程 。 现有的防御方法要么不奏效,要么会对推理能力造成很大的损失。实验数据显示,SFT将攻击成功率(ASR)压低的同时,也导致了 DeepSeek-R1-Distill-Llama-8B的数学能力在AIME-2024基准上 骤降10% ,在XSTest和PHTest上还出现了 系统性误判——超过50% 的 安全提问遭遇无理由拒绝(表3)。这暴露出当前防御策略的致命缺陷:它们并非真正识别出危险,而是通过"宁可错杀一千"的粗暴策略压 低风险指标。 团队进一步将这些防御技术引入 多轮攻防场景,测评后发现,多轮防御训练本身就像一把双刃剑 。在Qwen2.5-7B-Chat模型中加入多轮防 御数据后,安全问答的误伤率在OR-Bench和PHTest测试集上飙升30%,证明防御强度的提升与可用性损耗存在强相关性。 这种困境的根源,在特征空间 ...