Workflow
8秒极速生成!复杂场景图像定制低成本轻松驾驭,已开源丨字节北大联合发布
量子位·2025-05-12 04:11

DreamO团队 投稿 量子位 | 公众号 QbitAI 可控图片生成,如今已经不是什么新鲜事。甚至也不需要复杂的提示词,用户通过简单的文本描述,就能快速生成符合个人需求的创意图像。 不过仍然有一些局限: 比如说,虽然可以实现单一任务(如身份、主体、风格、背景等)的定制化设计,可是一旦条件增多,就会出现"鱼和熊掌不可兼得"的问题。 只有小孩子才做选择题,成年人当然是全都要! 字节跳动与北京大学联合起来,证明了"全都要"的可行性:一种支持多条件组合的统一图像定制化生成框架—— DreamO ,堂堂登场。 这个框架通过单一模型便可以实现主体、身份、风格及服装参考的多样化定制,并支持不同控制条件的自由组合,非常适应实际应用中的复杂 需求。 △ 参考多个主体的生成结果 那么就有人问了,他们是怎么做到的呢?这个框架和现有的商业大模型相比有什么优势呢? 一起来看技术细节。 DreamO:成本更低、速度更快 字节跳动和北大团队提出了统一的图像定制化生成框架DreamO,以极低的训练参数量(400M),就实现了如下图所展示的多种类型高质量 图像定制化结果: 该工作旨在通过单一模型完成各种定制化任务。 根据参考,生成一张魔幻风 ...