图像编辑

Search documents
赛道Hyper | Black Forest开源新模型:文本P图党福音
Hua Er Jie Jian Wen· 2025-07-03 05:50
Black Forest官方测试报告显示,该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发 布的GPT-image-1,标志着开源模型在高精度图像编辑领域取得新进展。 FLUX.1-Kontext的技术架构由自然语言解析、图像生成和多模态融合三个关键模块构成。 自然语言解析层采用改进型Transformer架构,配置8层自注意力机制,能对用户指令做深度语义拆分。 比如面对"将画面左侧咖啡杯替换为青花瓷杯,杯内咖啡表面添加拉花图案"的指令,系统可精准识别出 对象替换、材质变更、细节添加等子任务,并分配相应权重。 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建,创新引入动态噪声调度机制。 作者:周源/华尔街见闻 在AI绘画领域竞争白热化的当下,开源与闭源模型的博弈持续深化。 6月底,知名开源平台Black Forest推出文生图模型FLUX.1-Kontext开发者版本,凭借"自然语言指令实现 图像编辑"的核心功能,迅速成为行业焦点。 该机制可依据指令复杂程度自动调整去噪迭代次数:处理"将天空改为黄昏色调"等简单指令时,20步内 即可完成;面对"将人物服装添加复古刺绣纹样"等复杂 ...
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 00:38
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 图像模型开源还得是FLUX! Black Forest Labs刚刚宣布开源旗舰图像模型 FLUX.1 Kontext[dev] ,专为图像编辑打造,还能直接在消费级芯片上运行。 只有小小的 12B ,更少的参数,更快的推理,性能更是媲美 GPT-image-1 等一众闭源模型。 现在FLUX.1 Kontext[dev]可以让小狗迅速离开画面,为小老鼠戴上胡须,添加文字、修改背景也不在话下。 或者多次输入指令, 直到让小哥成为酒吧里最靓的崽(bushi) ,直到让画面符合咱们需求。 具体来说,FLUX.1 Kontext[dev]的主要特点有: 网友们也立马上手试玩,制作了一个旅行的CPU青蛙? 1. 可以根据编辑指令直接更改现有图像,以及进行精确的 本地和全局编辑 。 2. 不用做任何微调,就能 直接引用 里面的人物角色、风格样式和物品元素。 3. 允许用户通过 多次连续编辑 优化图像,同时将视觉漂移降到最低。 4. 专门为NVIDIA Blackwell进行了 权重优化 。 旅行必备的墨镜,还有抗寒的帅气红色毛衣也要准备妥当。 (蛙蛙:出片,我势在必 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 05:07
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 03:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 07:12
首创 MLLM 与 DiT 深度融合,阶跃星辰发布开源图像编辑模型 Step1X-Edit。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在图像编辑领域,开源模型正在加速追赶顶级闭源模型。近日,阶跃星辰正式发布并开源了图像编辑大模型 Step1X-Edit,在性能上达到当前开源体系 的 SOTA 水平,且性能可与 GPT-4o 与 Gemini 2 Flash 等闭源模型相媲美。 GEdit‑Bench 中每个子任务的 VIEScore,所有结果均由 GPT‑4o 评估 Step1X-Edit 由 19B 参数构成(7B 多模态语言模型 MLLM + 12B 扩散图像 Transformer DiT),具备语义精准解析、身份一致性保持和高精度区域级 控制三项核心能力。模型支持包括文字替换、风格迁移、材质变换、人物修图在内的 11 类高频图像编辑任务,能够灵活应对复杂的编辑指令。 在技术路径上,Step1X-Edit 首次在开源体系中实现了多模态语言理解与扩散图像生成的深度融合。模型能够解析参考图像与用户编辑指令,提取潜在 嵌入,并与扩散式图像解码器协同工作,生成符合预期的高质量编辑图 ...
阶跃星辰开源图像编辑模型Step1X-Edit:一键改图大师,性能达到开源SOTA
Founder Park· 2025-04-27 04:05
一句话总结:Step1X-Edit, 不只能"改图",更能"听得懂、改得准、保得住"。 开源链接与体验地址: Github: https://github.com/stepfun-ai/Step1X-Edit HuggingFace: https://huggingface.co/stepfun-ai/Step1X-Edit ModelScope: https://www.modelscope . cn/models/stepfun-ai/Step1X-Edit/summary 技术 Report: https://arxiv.org/pdf/2504.17761 阶跃星辰 . Step1X-Edit 首次在开源体系中实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升。在最新发布的图像编辑基准 GEdit- Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemini 2.0 Flash。 以下文章来源于阶跃星辰 ,作者拥抱开源的 智能阶跃,十倍每一个人的可能。 阶跃星辰正式发布 并开源 图像编辑大模型 ...
阶跃星辰开源图像编辑模型Step1X-Edit
news flash· 2025-04-27 03:11
阶跃星辰开源图像编辑模型Step1X-Edit 智通财经4月27日电,阶跃星辰4月27日宣布开源图像编辑大模型Step1X-Edit,性能达到开源 SOTA。该 模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控 制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。 ...
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
Zheng Quan Ri Bao· 2025-04-09 08:40
Core Insights - Meitu's MT Lab has achieved significant recognition with five research outcomes selected for the prestigious CVPR 2025 conference, which received over 13,000 submissions and has a low acceptance rate of 22.1% [2] - The lab also had two projects accepted at the AAAI 2025 conference, which had an acceptance rate of 23.4% from 12,957 submissions [2] - The seven research outcomes focus on image editing, including three generative AI technologies, three segmentation technologies, and one 3D reconstruction technology [2] Generative AI Technologies - GlyphMastero has been implemented in Meitu's app Meitu Xiuxiu, providing users with a seamless text modification experience [3] - MTADiffusion is integrated into Meitu's AI material generator WHEE, allowing for efficient image editing with simple commands [3] - StyO is utilized in Meitu Xiuxiu's AI creative and beauty camera features, enabling users to explore different dimensions easily [4] Segmentation and 3D Reconstruction Technologies - The segmentation breakthroughs include interactive segmentation and cutout technologies, which are applied in e-commerce design, image editing, and portrait beautification [4] - EVPGS represents advancements in 3D reconstruction, with increasing demand in new perspective generation, augmented reality (AR), 3D content generation, and virtual digital humans [4] Industry Position and Future Potential - Meitu's long-term investment in AI capabilities has allowed the company to integrate cutting-edge technologies into practical applications, enhancing its competitive edge in the core visual field [4] - The continuous iteration of product capabilities has led to increased user engagement and willingness to pay, indicating promising growth potential and expansion opportunities for the company [4]