ContextGen
Search documents
布局控制+身份一致:浙大提出ContextGen,实现布局锚定多实例生成新SOTA
机器之心· 2025-12-20 04:45
随着扩散模型(Diffusion Models)的迭代演进,图像生成已经日臻成熟。然而,在 多实例图像生成(Multi-Instance Image Generation, MIG) 这一有着大量用户 场景的关键领域,现有的方法仍面临核心瓶颈:如何同时实现对多个对象的 空间布局控 制(Layo ut Control)以及身份特征的良好保持(Identity Preservation) 主流方法往往无法做到两全其美:依赖文本和布局引导(Layout-to-Image)的模型往往难以实现高度的实例定制化,且实例遗漏、属性泄露的问题时有发生;而主 流的主体驱动(Subject-driven)方法在主体数量增加时,面临着严重的身份混淆和细节丢失的问题。 。 ContextGen 与主流 SOTA 的对比示例,以及 ContextGen 的使用例 为解决这一制约高度定制化图像生成的难题, 浙江大学 ReLER 团队发布 ContextGen ,一个新型的基于 Diffusion Transformer (DiT) 的框架,旨在通过上下文学 习,可靠地完成图像引导的多实例生成任务! ContextGen 提出了全新的上下 ...
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 07:20
浙江大学ReLER团队 投稿 量子位 | 公众号 QbitAI 尽管扩散模型在单图像生成上已经日渐成熟,但 当任务升级为高度定制化的多实例图像生成 (Multi-Instance Image Generation, MIG) 时 ,挑战随之显现: 如何在实现空间布局控制的同时,保持多主体身份与参考图像高度一致? 现有方法在面对需要宏观的布局控制和微观的身份注入的复杂任务时 常常陷入两难 。 能显式控制布局的方法,往往无法利用参考图像来对实例进行定制。 而能以参考图像为指导的方法,则难以实现对布局的精确控制,且在实例数量增加时面临着严重的身份信息丢失问题。 为解决这一制约自定义图像生成的技术瓶颈, 浙江大学ReLER团队发布基于DiT的新框架ContextGen 。 该框架通过分层解耦上下文,解决布局控制与身份保真度的难题,并在多项关键指标上取得了SOTA突破。 机制创新:布局与身份的协同控制 ContextGen的核心在于提出了双重上下文注意力机制,将复杂的全局控制和局部注入任务,并在DiT的不同层级进行部署。 Contextual Layout Anchoring (CLA):宏观布局锚定 CLA机制将包含 ...