Workflow
开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
量子位·2025-05-11 04:20

ModelScope团队 投稿 量子位 | 公众号 QbitAI OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级 图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型 Nexus-Gen ,在图像质量和编辑能力上达GPT-4o同等 水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。 模型先进行图像生成,然后进行图像理解的可视化案例: Nexus-Gen技术细节 总体框架 Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线,融合了SOTA MLLMs的强大文本预测能力 和Diffusion模型的强大图像渲染能力,其总体架构如图所示。 作为一个All-to-All模型,Nexus-Gen的输入和输出都支持图像和文本模态,自回归 ...