神经网络微调

Search documents
把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
机器之心· 2025-07-31 01:24
论文第一作者唐灵,张拳石老师课题组的博二学生。 今天要聊的是个硬核技术 —— 如何给神经网络刻上抹不掉的 "身份证"。现在大模型抄袭纠纷不断,这事儿特别应景。 所谓神经网络指纹技术,是指使用神经网络内部如同人类指纹一样的特异性信息作为身份标识,用于判断模型的所有权和来源。传统方法都在玩 "贴标签":往模 型里塞各种人造指纹。但问题是,模型微调(fine-tuning)就像给整容 —— 参数一动,"整张脸" 就变了,指纹自然就糊了。 面对神经网络微调训练的威胁,现有方案都在修修补补,而我们上升到理论层面重新思考:神经网络是否先天存在某种对微调鲁棒的特征?如果存在,并将该固 有特征作为网络指纹,那么无论对模型参数如何微调,该指纹就能始终保持不变。在这一视角下,前人的探索较为有限,没有从理论上证明出神经网络内部对微 调天然鲁棒的特征。 理论框架。我们证明,通过对卷积核 W 进行拓展后的离散傅里叶变换 (不是传统的傅里叶变换)所获得的特定频率成分 ,在训练过程中保持稳定。因此,我们使用这些特定的频率成分作 为对于微调鲁棒的神经网络指纹。 首先,我们发现神经网络时域上的前向传播过程可以写为频域当中的向量乘法。具体而言, ...