Workflow
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心·2025-07-03 04:14

机器之心发布 机器之心编辑部 2024 年 9 月,智源研究院发布了 统一图像生成模型 OmniGen 。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功 能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。 在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2 。新一代模型在保持简洁架构的基础上, 显著增强了上下文理解能力、指令遵循能力和图像生 成质量 。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力, 同时支持图像和文字生成,进一步打通了多模态技术生态 。同时, 模型权重、训练代码及 ...