MLLM Token Compression
Search documents
关于多模态大模型Token压缩技术进展,看这一篇就够了
机器之心· 2026-01-26 04:08
近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上 万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。 正是这种紧迫的需求催生了 MLLM Toke n Compression ,迅速成为研究爆点,两年内在该垂直领域产出了约 200 篇论文。但是随着研究工作的快速涌现,领域内 的方法也变得极其庞杂难以归类,进一步具体到落地场景里面,往往因为方法多样而难以选择。 针对这一背景, 来自 北京大学、中国科学技术大学等机构 的研究人员, 首先基于 压缩位置 对方法进行了系统归类,然后讨论了 对于特定的部署场景应该选择何 种压缩机制 ,最后探讨了目前的挑战和具有前景的方向。 Github 链接: https://github.com/yaolinli/MLLM-Token-Compression 论文链接: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176823010.07236701/v1 图 1. MLLMs 中 T oken 压缩 ...