Workflow
自回归生成 (Autoregressive Generation)
icon
Search documents
从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路
自动驾驶之心· 2025-12-09 00:03
作者 | 我要吃鸡腿 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1963658684765833212 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 在深入探讨 LLaVA 和 Qwen3-VL 的具体实现之前,我们必须先搭建一个稳固的认知框架。幸运的是,尽管实现细节千差万别,当前绝大多数主流的 多模态大模型都遵循着一个共同的、优雅的"三位一体"黄金架构。我们可以将其生动地比喻为为 AI 打造一套完整的"感知-思考"系统: AI 的"眼睛" (视觉编码器) : 负责最前端的感知。它的任务是将输入的像素世界——无论是静态图片还是动态视频,转化为机器能够理解的、蕴含 丰富语义的数学表达(即特征向量)。 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 引言:当 AI 睁开双眼,我们看到了一个怎样的未来? 曾几何时,我们对人工智能的印象还停留在那个聪慧但略显"盲目"的"数字大脑"上——它能写诗、能编程、能回答深奥的哲学问题,但这一切都局限 于冰冷的文本世界。然而,就在最近两年,一场 ...