仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42%
量子位·2026-03-11 02:45

这套模态非对称Token压缩框架的核心洞察是:视频信息远比音频密集,让视频"带着"音频走。 具体来说,先通过时空联合剪枝压缩视频Token,再用筛选后的视觉特征去引导音频Token的选择——与当前视觉内容高度相关的声音被保 留,无关背景音直接过滤。 OmniSIFT团队 投稿 量子位 | 公众号 QbitAI 一段几十秒的音视频,上万Token,一半以上是冗余——Omni-LLM的计算浪费,比想象中更严重。 快手可灵团队、中科院自动化所和南京大学的最新研究,给出了一个解决方案: OmniSIFT 。 实验结果令人惊喜: 只保留35%的多模态Token,模型性能不仅没掉,反而在部分基准上超过全量输入。 推理时间减少42%,GPU显存占用 同步下降。 然而,这种能力的代价同样巨大。一段几十秒的视频在进入模型之前,往往会被编码成成千上万个Token,但其中大量Token都是冗余的。注 意力可视化实验结果进一步揭示了这一问题。如图所示,在Qwen2.5-Omni-7B的多模态推理过程中,只有少量Token获得较高的注意力权 重,而大部分Token的贡献非常有限。这意味着,大量计算资源其实消耗在冗余信息上。 OmniS ...

仅保留35% Token,性能反超原模型!快手可灵等用视觉信息引导音频压缩,推理时间直降42% - Reportify