仅保留35% Token，性能反超原模型！快手可灵等用视觉信息引导音频压缩，推理时间直降42%

这套模态非对称Token压缩框架的核心洞察是：视频信息远比音频密集，让视频"带着"音频走。具体来说，先通过时空联合剪枝压缩视频Token，再用筛选后的视觉特征去引导音频Token的选择——与当前视觉内容高度相关的声音被保留，无关背景音直接过滤。 OmniSIFT团队投稿量子位 | 公众号 QbitAI 一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。快手可灵团队、中科院自动化所和南京大学的最新研究，给出了一个解决方案： OmniSIFT 。实验结果令人惊喜：只保留35%的多模态Token，模型性能不仅没掉，反而在部分基准上超过全量输入。推理时间减少42%，GPU显存占用同步下降。然而，这种能力的代价同样巨大。一段几十秒的视频在进入模型之前，往往会被编码成成千上万个Token，但其中大量Token都是冗余的。注意力可视化实验结果进一步揭示了这一问题。如图所示，在Qwen2.5-Omni-7B的多模态推理过程中，只有少量Token获得较高的注意力权重，而大部分Token的贡献非常有限。这意味着，大量计算资源其实消耗在冗余信息上。 OmniS ...