TokLIP
Search documents
视觉Token注入CLIP语义,走向多模态理解与生成新范式
量子位· 2025-08-26 04:36
腾讯ARC Lab 投稿 量子位 | 公众号 QbitAI 让视觉token说话,既能 看懂 图像,又可以 画出 图像! 腾讯ARC Lab 联合中科院自动化所、香港城市大学、浙江大学等机构提出了一种全新的视觉分词器—— TokLIP ,即Token+CLIP。 可以将低级的离散视觉Token与高级的CLIP语义相结合,实现多模态理解与生成的高效统一。 不仅支持端到端的自回归训练,还能无缝接入现有LLM框架,极大降低了多模态模型的计算与数据门槛。 训练数据量仅需同类方法的 20% ,还可以在图像分类、图文检索和多模态理解等多项任务中达成 SOTA ,有理由相信,TokLIP或将成为构 建下一代多模态通用模型的重要基础组件。 下面是更多详细内容介绍。 TokLIP 的结构与核心设计 过去几年里,人工智能的发展已经从单一模态走向多模态,无论是图像、视频,还是文本,人们希望机器能够像人类一样,既能"看懂"世界, 也能"说清"所见。 其中关键问题是: 如何在同一个模型中实现统一的理解 (comprehension) 与生成 (generation) 能力 。 目前的自回归多模态大模型对图像的编码大多依赖两类核心部件。 ...