ICCV 25 Highlight | 扩散过程「早预警」实现6x加速，AIGC生图的高效后门防御

本文的第一作者翟胜方和共同第一作者李嘉俊来自北京大学，研究方向为生成式模型安全与隐私。其他合作者分别来自新加坡国立大学、清华大学、浙江大学和弗吉尼亚理工大学。随着 AIGC 图像生成技术的流行，后门攻击给开源社区的繁荣带来严重威胁，然而传统分类模型的后门防御技术无法适配 AIGC 图像生成。虽然针对传统模型（以分类模型为主）已有多种输入级后门防御方法的研究，即通过判断输入样本是否携带可疑触发器来阻止恶意样本进入模型。这类防御方法主要依赖于一个假设：触发词的主导性（Trigger Dominance）。即一旦触发，模型输出几乎被完全控制，即便修改恶意输入的其他词汇或像素区域，模型置信度仍基本不变。针对这一问题，本文首先通过对神经元的分析定义了图像生成过程中的「早期激活差异」现象。在此基础上，本文提出了一种高效的输入级后门防御框架（ NaviT2I ），该框架基于神经元激活差异检测可疑样本，并通过对扩散过程的分析加速检测过程，进一步满足实时检测的部署需求。 1. 研究背景近来，基于扩散模型的图像生成技术蓬勃发展，用户可以利用文本描述生成具有真实感的图像。随着多个第三方机构陆续开源模型 [1, 2 ...