视觉tokenizer

Search documents
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 06:38
本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理 工大学联合完成。 在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。 这种分离式的训练范式假设视觉 tokens 能够在不同任务间无缝通用,但现实情况是,为低级重建任务优化的视觉 tokenizer 往往难以满足诸如图像生成、 视觉问答等需要丰富语义表示的下游任务需求,导致下游任务的性能受限。 针对这一亟待解决的问题,我们提出了 ETT(End-to-End Vision Tokenizer Tuning),一种全新的端到端视觉 tokenizer 调优方法。 ETT 的核心架构与训练策略 ETT 创新性地实现了视觉 tokenization 与目标自回归任务的联合优化,打破了传统方法中视觉 tokenizer 一旦训练完成便固定的常规,充分释放了 ...