Workflow
Diffusion Transformer架构
icon
Search documents
对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA
3 6 Ke· 2025-12-22 08:12
【导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意 力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。 在定制化AI图像生成领域,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制和多主体身份保真的同步实现。 现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足。 为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意 力机制实现了架构级的分层解耦控制。 ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统,实现了在复杂定制化控制方面实现 了关键突破。 论文地址:https://arxiv.org/abs/2510.11000 代码地址:https://github.com/n ...