2025年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色【组图】
Qian Zhan Wang·2025-05-22 08:58
转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型类型及综合对比 视觉+语言的多模态大模型目前主流方法是:借助预训练好的大语言模型和图像编码器,用一个图文特 征对齐模块来连接,从而让语言模型理解图像特征并进行更深层的问答推理。这样可以利用已有的大量 单模态训练数据训练得到的单模态模型,减少对于高质量图文对数据的依赖,并通过特征对齐、指令微 调等方式打通两个模态的表征。 多模态大模型类型-CLIP CLIP是OpenAI提出的连接图像和文本特征表示的对比学习方法。CLIP是利用文本信息训练一个可以实 现zero-shot的视觉模型。利用预训练好的网络去做分类。具体来说,给网络一堆分类标签,比如cat, dog,bird,利用文本编码器得到向量表示。然后分别计算这些标签与图片的余弦相似度;最终相似 ...