ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御
机器之心·2025-09-24 09:23

本文的第一作者翟胜方和共同第一作者李嘉俊来自北京大学,研究方向为生成式模型安全与隐私。其他合作者分别来自新加坡国立大学、清华大学、浙江大学和 弗吉尼亚理工大学。 随着 AIGC 图像生成技术的流行,后门攻击给开源社区的繁荣带来严重威胁,然而传统分类模型的后门防御技术无法适配 AIGC 图像生成。 虽然针对传统模型(以分类模型为主)已有多种输入级后门防御方法的研究,即通过判断输入样本是否携带可疑触发器来阻止恶意样本进入模型。 这类防御方法主要依赖于一个假设:触发词的主导性(Trigger Dominance)。即一旦触发,模型输出几乎被完全控制,即便修改恶意输入的其他词汇或像素区 域,模型置信度仍基本不变。 针对这一问题,本文首先通过对神经元的分析定义了图像生成过程中的「早期激活差异」现象。 在此基础上,本文提出了一种高效的输入级后门防御框架( NaviT2I ),该框架基于神经元激活差异检测可疑样本,并通过对扩散过程的分析加速检测过程,进 一步满足实时检测的部署需求。 1. 研究背景 近来,基于扩散模型的图像生成技术蓬勃发展,用户可以利用文本描述生成具有真实感的图像。随着多个第三方机构陆续开源模型 [1, 2 ...