图像编辑模型
Search documents
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
量子位· 2025-08-27 05:49
不圆 时令 发自 凹非寺 量子位 | 公众号 QbitAI 爆火的神秘图像编辑模型 nano-banana ,终于脱掉了"香蕉皮"! 就在今天,谷歌官方认领,并表明这个模型其实是 Gemini 2.5 Flash Image 。 最新一波官方Demo也来了: 还展现出了高超的图像推理能力: 现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。 模型的具体表现如何?一起来看~ 出色的图像编辑能力 官方给出了很多有趣的用法。 除了常规的修图方式,它还可以 合并最多三张图片 来创造新事物。 生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。 而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。 比如说精准改变面部表情和天气。 或者让秃头男人重新拥有不同发型。 网友表示:PhotoShop岌岌可危。 或者轻松实现设计想法。 还可以用几张照片生成堪称电影画面的连贯剧情故事。 毕竟这个"香蕉"不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图 ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 07:12
首创 MLLM 与 DiT 深度融合,阶跃星辰发布开源图像编辑模型 Step1X-Edit。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在图像编辑领域,开源模型正在加速追赶顶级闭源模型。近日,阶跃星辰正式发布并开源了图像编辑大模型 Step1X-Edit,在性能上达到当前开源体系 的 SOTA 水平,且性能可与 GPT-4o 与 Gemini 2 Flash 等闭源模型相媲美。 GEdit‑Bench 中每个子任务的 VIEScore,所有结果均由 GPT‑4o 评估 Step1X-Edit 由 19B 参数构成(7B 多模态语言模型 MLLM + 12B 扩散图像 Transformer DiT),具备语义精准解析、身份一致性保持和高精度区域级 控制三项核心能力。模型支持包括文字替换、风格迁移、材质变换、人物修图在内的 11 类高频图像编辑任务,能够灵活应对复杂的编辑指令。 在技术路径上,Step1X-Edit 首次在开源体系中实现了多模态语言理解与扩散图像生成的深度融合。模型能够解析参考图像与用户编辑指令,提取潜在 嵌入,并与扩散式图像解码器协同工作,生成符合预期的高质量编辑图 ...