Workflow
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营·2025-04-27 07:12

首创 MLLM 与 DiT 深度融合,阶跃星辰发布开源图像编辑模型 Step1X-Edit。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在图像编辑领域,开源模型正在加速追赶顶级闭源模型。近日,阶跃星辰正式发布并开源了图像编辑大模型 Step1X-Edit,在性能上达到当前开源体系 的 SOTA 水平,且性能可与 GPT-4o 与 Gemini 2 Flash 等闭源模型相媲美。 GEdit‑Bench 中每个子任务的 VIEScore,所有结果均由 GPT‑4o 评估 Step1X-Edit 由 19B 参数构成(7B 多模态语言模型 MLLM + 12B 扩散图像 Transformer DiT),具备语义精准解析、身份一致性保持和高精度区域级 控制三项核心能力。模型支持包括文字替换、风格迁移、材质变换、人物修图在内的 11 类高频图像编辑任务,能够灵活应对复杂的编辑指令。 在技术路径上,Step1X-Edit 首次在开源体系中实现了多模态语言理解与扩散图像生成的深度融合。模型能够解析参考图像与用户编辑指令,提取潜在 嵌入,并与扩散式图像解码器协同工作,生成符合预期的高质量编辑图 ...