Multimodal Unified Pretrained Model

Search documents
昆仑万维:正式推出并开源多模态统一预训练模型Skywork UniPic
Zheng Quan Shi Bao Wang· 2025-07-30 03:04
GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。据了解,Skywork UniPic 延 续了GPT-4o的自回归范式,在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核 心任务,构建了真正统一的多模态模型架构。 传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性, 它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。为此, Skywork UniPic团队借鉴Harmon架构设计,并在表征方式上做出关键调整,采用MAR编码器作为图像 生成路径的视觉表征基础,同时引入SigLIP2作为图像理解路径的主干。 此外,Skywork-UniPic完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促 进,突破传统方法中能力权衡的技术瓶颈。 7月30日,昆仑万维(300418)正式推出并开源采用自回归路线的"多模态统一预训练模型Skywork UniPic",在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大 规模高质量数据进行端到端预训练,具备良好的通用性与可迁 ...