多模态大模型中Attention机制暗藏「骗局」，需用一个公式修正丨上大×南开

Intcomp团队投稿量子位 | 公众号 QbitAI Attention真的可靠吗？近年来，Vision-Language Models （VLMs）在多模态理解任务中取得了显著进展，尤其是在视觉问答、图像理解和视频理解等场景中，模型通常通过 language-to-vision attention 来衡量视觉token与文本之间的相关性，并据此进行visual token pruning，以降低推理成本、提升运行效率。然而，一个长期被忽视的问题是： attention本身是否真的能够作为"语义重要性"的可靠指标？在最新研究中，上海大学曾丹团队系统分析了主流VLM中attention的行为模式，发现一个关键却容易被忽略的现象—— attention并非只由语义决定，而是受到显著的结构性偏置影响。如果直接使用这些带偏置的attention进行visual token pruning，往往会在无意中保留不重要的视觉区域，同时丢失真正有助于任务理解的关键信息。更为严重的是，当attention被用于visual token pruning时，这种位置偏置会被进一步放大，从而导致剪枝结果系统 ...