Workflow
图像生成
icon
Search documents
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 04:14
机器之心发布 机器之心编辑部 2024 年 9 月,智源研究院发布了 统一图像生成模型 OmniGen 。该模型在单一架构内即可支持多种图像生成任务,包括文本生成图像(Text-to-Image Generation)、图像编辑(Image Editing)和主题驱动图像生成(Subject-driven Image Generation)。用户仅需使用多模态的自然语言指令,便可灵活实现上述功 能,无需依赖额外的上下文提示、插件或预处理模块。凭借其功能的高度通用性与架构的高度简洁性,OmniGen 一经发布便获得社区的广泛好评。随后,随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布,构建统一图像生成模型成为当前最受关注的研究与应用方向之一。 在这一背景下,OmniGen 迎来重大技术升级,正式发布 OmniGen2 。新一代模型在保持简洁架构的基础上, 显著增强了上下文理解能力、指令遵循能力和图像生 成质量 。同时,OmniGen2 全面继承了其基座多模态大模型在上下文理解与生成方面的能力, 同时支持图像和文字生成,进一步打通了多模态技术生态 。同时, 模型权重、训练代码及 ...
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
量子位· 2025-07-02 09:33
Core Viewpoint - ByteDance has introduced Xverse, a multi-subject control generation model that allows precise control over each subject without compromising image quality [2][6]. Group 1: Xverse Overview - Xverse utilizes a method based on the Diffusion Transformer (DiT) to achieve consistent control over multiple subjects' identities and semantic attributes [6]. - The model comprises four key components: T-Mod adapter, text flow modulation mechanism, VAE encoding image feature module, and regularization techniques [8][10][11]. Group 2: Key Components - T-Mod adapter employs a perceiver resampler to combine CLIP-encoded image features with text prompt features, generating cross-offsets for precise control [8]. - The text flow modulation mechanism converts reference images into modulation offsets, ensuring accurate control during the generation process [9]. - The VAE encoding module enhances detail retention, resulting in more realistic images while minimizing artifacts [10]. Group 3: Regularization Techniques - Xverse introduces two critical regularization techniques to improve generation quality and consistency: XVerseBench benchmark testing and multi-dimensional evaluation metrics [11][12]. - XVerseBench includes a diverse dataset with 20 human identities, 74 unique objects, and 45 different animal species, featuring 300 unique test prompts [11]. Group 4: Evaluation Metrics - The evaluation metrics include area retention loss, text-image attention loss, DPG score, Face ID similarity, DINOv2 similarity, and aesthetic score [12][13]. - These metrics assess the model's editing capabilities, identity maintenance, object feature retention, and overall aesthetic quality of generated images [13]. Group 5: Comparative Performance - Xverse has been compared with leading multi-subject generation technologies, demonstrating superior performance in maintaining identity and object correlation in generated images [14][15]. - Quantitative data shows Xverse achieving an average score of 73.40 across various metrics, outperforming several other models [15]. Group 6: Research Background - The ByteDance Intelligent Creation Team has a history of focusing on AIGC consistency, developing advanced generation models and algorithms for multi-modal content creation [17]. - Previous innovations include DreamTuner for high-fidelity identity retention and DiffPortrait3D for 3D modeling, laying the groundwork for Xverse [18][19][21]. Group 7: Future Directions - The team aims to enhance AI creativity and engagement, aligning with daily needs and aesthetic experiences [22].
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 11:53
华人团队做的 OpenArt,在 10 人团队的情况下已经将 ARR 做到了 1600 万美金,其 CEO Coco Mao 陆 陆续续分享了不少经验,这几点我觉得挺有价值: 1.定位:如何找准自己的定位 早期,OpenArt 面临的问题是定位:在一个快速演进的市场中,如何找到自己的定位?当时的 AI 图像生 成市场群雄并起——Midjourney 凭借其艺术化的输出赢得了设计师的青睐,DALL-E 以技术实力著称,而 无数新创公司都在争夺这个看似无限大的蛋糕。 最初的几个月里,我们每天都在问自己同一个问题:OpenArt 与 Midjourney 或 Ideogram 有什么不 同?说实话,在核心功能和技术层面,所有产品都非常相似。 从表面看,OpenArt 确实很难与竞争对手区分开来——都提供文本到图像的生成功能,都使用类似的 AI 模型,都面向创意工作者。但很快她意识到, 真正的差异化往往不在于技术本身,而在于用户体验和使用 场景的精准把握。 经过几个月的探索和用户反馈,OpenArt 团队确定了三个核心用户群体: 2.增长:SEO 驱动的爆发式增长 到 2024 年底,OpenArt 已经在 AI 图 ...
480P的元宇宙入口:Midjourney不是在做视频,是在造"任意门"
歸藏的AI工具箱· 2025-06-19 08:20
大家好我是歸藏(guizang),今天给大家带来 Midjourney 视频模型的测试。 昨天晚上 Midjourney 在测试了几次后终于发布了自己的第一个视频模型 Video V1。 先来看一下藏师傅的测试视频混剪,我起了个名字叫《 精骛八极,心游万仞 》,来自陆机的《文赋》。 后面我会解释为什么叫这个,以及在 文章最后我会跟你说为什么我觉得这个"480P"的视频模型这么重要。 这次视频模型测试,由于 Midjouney 这家公司本身的特殊性,我不会只说视频模型的部分,会结合产品能力 上的更新一起讨论。 首先我们先看一下产品和定价方面的内容。 跟其他视频生成软件和模型设计不同,Midjourney 干脆不支持文生视频,只能通过图生生成。 而且视频生成也没有单独的入口,你只需要在自己生成的图片上面点击"Animate"按钮就会开始基于这张图片 生成视频,不需要输入提示词。 跟图片一样一次会生成 4 个视频,鼠标 Hover 对应的视频会有两个按钮,一个是自动延长视频,另一个是自 定义提示词的延长视频。 每次延长的时间是 4 秒,最多支持延长四次,也就是说你最多可以生成 20 秒连续的视频。 在延长视频和生成 ...
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 10:30
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 可以看到跑步动作和人物、空间转换非常丝滑。 下面这个挖蛋糕的场景不仅逼真,勺子上还有倒影,非常细节了。 图像生成界的"大魔王" Midjourney 也来卷视频生成了?! 一石激起千层浪,消息一出,Reddit点赞量直达2.5k。 上面展示的就是一个视频效果。 还引发了网友们激烈讨论。 有人说"这是第一次以为是人工拍摄的视频"、"几乎和现实无法区分"。 不仅视频模型表现良好,Midjourney的 图像模型V7 也在不断更新中。 不仅效果惊人,价格还由你来定 再来看看更多的效果演示。 多人物动作和视角切换也非常丝滑。 小猫的动作和人手的动作都很有物理真实感。 小狗滑滑板来了~ 汽车漂移也不在话下。 没有音频功能 。 是的,网友们也发现了这一点。 小猫美甲确实很精细,但更细节的是手部的纹路,手指上居然还有指纹 (虽然有一部分指纹是缺失的) 。 不过,也正如上面那位网友所说,有些地方还是不太合理的。 比如,这个叠毯子的场景中,虽然考虑到了手部发力扯出的褶皱,给人一定的物理真实感,但是后面像是毯子自己缩回去了…… 总体看下来,Midjourney的这个视频生成模 ...
迪士尼(DIS.N)、宽带网络供应商康斯卡特起诉AI图像生成器Midjourney。
news flash· 2025-06-11 14:50
迪士尼(DIS.N)、宽带网络供应商康斯卡特起诉AI图像生成器Midjourney。 ...
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 05:38
编译|冬梅、核子可乐 Stable Diffusion 模型缔造者们建立的初创公司 Black Forest Labs(黑暗森林实验室,简称 BFL)刚 刚发布了发布一款名为 FLUX.1 Kontext 的全新图像生成模型。此模型不仅能够生成和编辑照片,还 允许用户添加文本及其他图像以实现内容修改。 该公司在 X 上发文称:"今天我们正式发布 FLUX.1 Kontext——一款生成流匹配模型,可用于图像生 成和编辑。与传统的文生图模型不同,Kontext 能够同时将文本和图像作为输入,从而实现真正基于 上下文的生成和编辑能力。" BFL 公司联合创始人兼 CEO Robin Rombach 表示:"FLUX.1 Kontext 通过将图像生成和编辑统一在 一个流匹配架构中,代表了对传统编辑方法的根本性转变。通过简单的流匹配训练, 我们实现了跨 多轮编辑的顶尖字符一致性,同时在 1MP 分辨率下保持了 3~5 秒的交互式推理速度 。这实现了真 正的迭代式创意工作流程,而这在以前由于视觉漂移和延迟限制而无法实现。" 该公司还公布了全新的 BFL Playground,供用户在正式引入企业级应用流程之前对 BF ...
混元与AI生图的“零延迟”时代
腾讯研究院· 2025-05-20 08:48
以下文章来源于腾讯科技 ,作者晓静 腾讯科技 . 腾讯新闻旗下腾讯科技官方账号,在这里读懂科技! 晓静 腾讯科技特约作者 5月16日,腾讯混元推出Hunyuan Image2.0 (混元图像 2.0 模型) ,基于超高压缩倍率的图像编解码器,全新扩散架构,实现超快的推理速度和超高质量图像生 成,极大降低"AI味"。 当前主流文生图模型的最大问题是生成时间长,即使是业内领先的模型,也需要5-10秒才能生成一张图像。 此外,文生图模型普遍存在结果随机性问题,用户通常需要多次生成才能获得满意的结果。标准的使用流程通常是"输入提示词→等待数秒→查看结果→调整 重试",对于复杂图像,可能需要十余次调整才能得到真正可用的图。 如果能做到"所见即所得",对产业应用而言,意味着降本增效;对个人用户而言,这项技术提供了类似即时设计助手的体验:制作演讲插图、创意宠物照片等 任务都可以快速完成。即时反馈机制能让创意连贯,让想法更流畅地表达。 | GenEval bench | Overall | Single Obj.l | Two Obj. | Counting | Colors | Position | Color Attri ...
边写边画、边说边画,混元图像2.0来了!
Hua Er Jie Jian Wen· 2025-05-16 12:00
实际测试显示,混元图像2.0能够实现"一边打字一边出图"的完全实时反馈,用户输入提示词的过程中,画面会随着文字变化而实时调整。 例如输入"人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度",系统能够实时生成符合描述的图像,并在每个新元素添加时立即更新画面。 5月16日,腾讯推出了其新一代图像生成模型——混元图像2.0(Hunyuan Image 2.0),号称将图像生成速度提升至"毫秒级"。 何谓"毫秒级"?答案可能令人大吃一惊:当用户在输入提示词的同时,即可看到图像的实时变化,所见即所得。 腾讯表示,得益于超高压缩倍率的图像编解码器以及全新扩散架构,该模型参数量提升了一个数量级,实现了毫秒级响应速度,改变了传统"抽卡—等待 —抽卡"的方式,带来交互体验革新。 混元图像 2.0 不仅实现了"边说边画"的实时互动,还在模型架构和生成质量上实现了全面飞跃。在GenEval基准测试中,混元图像2.0模型的准确率超过 95%,远超其他同类模型,证明了其在复杂文本指令理解与生成方面的卓越能力。 交互革新:"边打字边出图"的新范式 人物的表情也可以瞬间改变,比如让爱因斯坦吐舌头: 除此之外,还可以连续对画面增加或修改多 ...