视觉生成和理解

Search documents
2025年了,生成和理解多模态大模型发展到哪一步了?
自动驾驶之心· 2025-08-25 23:34
作者 | vasgaowei 编辑 | 大模型之心Tech 首先要说明的是,本文谈的"生成和理解多模态大模型"主要指图片理解和图片生成一体的多模态大模型,至于更多模态理解和生成的(俗称Omini- LLM)大模型就不在谈论之列了,原因是这一个方向的学术界论文相比"图片理解和图片生成一体的多模态大模型"来说还是显著少了。不过也可以推荐 一些早期的论文,供大家参考,比如Google的Unified-IO和Unified-IO-2(这个系列的工作可以看作是Omini-LLM的早期代表作)、阿里的OFA、复旦的 AnyGPT、meta的CM3Leon和Chameleon(多模态预训练)还有ANOLE、VITA等工作,这些工作其实也对后面的一系列工作有很大的影响,其中 AnyGPT、CM3Leon、Chameleon和ANOLE也比较新了,所以也会介绍一下。 Unified-IO 原文链接: https://zhuanlan.zhihu.com/p/1927391836932142920 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交 ...