Workflow
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
Qian Zhan Wang·2025-06-01 05:09

转自:前瞻产业研究院 行业主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);腾讯(00700.HK, TCEHY);科大讯飞(002230.SZ);万兴科技(300624.SZ);三六零(601360.SH);昆仑万维(300418.SZ);云从科技 (688327.SH);拓尔思(300229.SZ)等 多模态大模型的模型路径 多模态大模型的探索正在逐步取得进展,近年来产业聚焦在视觉等重点模态领域突破。理想中的"Any- to-Any"大模型,Google Gemini、Codi-2等均是处于探索阶段的方案,其最终技术方案的成熟还需要在 各个模态领域的路线跑通,实现多模态知识学习,跨模态信息对齐共享,进而实现理想中多模态大模 型。现阶段产业主要的工作还是聚焦在视觉等典型的重点模态,试图将Transformer大模型架构进一步在 图像、视频、3D模型等模态领域引入使用,完善各个模态领域的感知和生成模型,再进一步实现更多 模态之间的跨模态打通和融合。 多模态大模型的图像模型 早在2023年LLM的流行之前,过去产业界在对于图像的理解和生成模型领域已经打下了坚实 ...