Workflow
昆仑万维推出并开源Skywork UniPic

在追求模型能力极限的同时,Skywork UniPic也坚持效率重要性的设计理念。Skywork UniPic以1.5B的 紧凑参数规模,在无CoT(思维链)的情况下取得了SOTA("当前最佳水平")分数,逼近部分较大模 型带CoT的0.88分;在DPG-Bench复杂指令生图基准上达到85.5分的行业SOTA水平。 据悉,Skywork UniPic在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任 务,构建了真正统一的多模态模型架构。 传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性。 它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。 为此,Skywork UniPic团队借鉴Harmon架构设计,并在表征方式上做出关键调整。采用MAR编码器作 为图像生成路径的视觉表征基础,同时引入SigLIP2作为图像理解路径的主干。 此外,Skywork UniPic完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促 进,突破传统方法中能力权衡的技术瓶颈。这一架构设计不仅保持了自回归模型的简洁高效,更 ...