多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位·2026-01-27 02:33

Intcomp团队 投稿 量子位 | 公众号 QbitAI Attention真的可靠吗? 近年来,Vision-Language Models (VLMs) 在多模态理解任务中取得了显著进展,尤其是在视觉问答、图像理解和视频理解等场景中, 模型通常通过 language-to-vision attention 来衡量视觉token与文本之间的相关性,并据此进行visual token pruning,以降低推理成 本、提升运行效率。 然而,一个长期被忽视的问题是: attention本身是否真的能够作为"语义重要性"的可靠指标? 在最新研究中,上海大学曾丹团队系统分析了主流VLM中attention的行为模式,发现一个关键却容易被忽略的现象—— attention并非只由 语义决定,而是受到显著的结构性偏置影响 。如果直接使用这些带偏置的attention进行visual token pruning,往往会在无意中保留不重 要的视觉区域,同时丢失真正有助于任务理解的关键信息。 更为严重的是,当attention被用于visual token pruning时,这种位置偏置会被进一步放大,从而导致剪枝结果系统 ...