Workflow
特征最优对齐
icon
Search documents
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心· 2025-10-17 04:09
近年来,多模态大语言模型(MLLMs)取得了令人瞩目的突破,在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而,随着这些模型的广泛部 署,其潜在的安全风险也逐渐引起关注。 研究表明,MLLMs 同样继承了视觉编码器对抗脆弱性的特征,容易受到对抗样本的欺骗。 这些对抗样本在现实应用中可能导致模型输出错误或泄露敏感信息,给 大规模模型的安全部署带来严重隐患。 在此背景下,如何提升对抗攻击的可迁移性 —— 即对抗样本跨模型、尤其是跨闭源模型仍能保持攻击有效性 —— 成为当前研究的关键难题。 然而,当面对如 GPT-4、Claude-3 等强大的闭源商业模型时,现有攻击方法的迁移效果显著下降。原因在于, 这些方法通常仅对齐全局特征(如 CLIP 的 [CLS] token),而忽略了图像补丁(patch tokens)中蕴含的丰富局部信息,导致特征对齐不充分、迁移能力受限。 为解决这一难题,本文提出了一种名为 FOA-Attack(Feature Optimal Alignment Attack) 的全新靶向迁移式对抗攻击框架。该方法的核心思想是 同时在全局和 局部两个层面实现特征的最优对齐,从而显著提升 ...