图像生成模型

Search documents
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 04:14
机器之心发布 机器之心编辑部 2024 年 9 月,智源研究院发布了 统一图像生成模型 OmniGen 。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功 能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。 在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2 。新一代模型在保持简洁架构的基础上, 显著增强了上下文理解能力、指令遵循能力和图像生 成质量 。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力, 同时支持图像和文字生成,进一步打通了多模态技术生态 。同时, 模型权重、训练代码及 ...
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 05:38
编译|冬梅、核子可乐 Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚 刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还 允许用户添加文本及其他图像以实现内容修改。 该公司在 X 上发文称:"今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生 成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于 上下文的生成和编辑能力。" BFL 公司联合创始人兼 CEO Robin Rombach 表示:"FLUX.1 Kontext 通过将图像生成和编辑统一在 一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练, 我们实现了跨 多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度 。这实现了真 正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。" 该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BF ...