Diffusion训练
Search documents
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 01:49
论文名称:Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think 论文地址: https://arxiv.org/abs/2507.01467v2 代码地址: https://github.com/Martinser/REG 会议信息: NeurIPS 2025 Oral 作者机构:NKIARI, 深圳福田;VCIP, CS, 南开大学;极豪科技;哈佛大学;中国科学院大学 背景简述 REPA 及其变体通过把 noised latent 和视觉基础模型判别式 clean image representation 进行对齐,来加速 Diffusion 训练收敛,但其推理时无法使用外部特征,限制了 其性能上限。 REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维 度拼接后共同加噪训练,从而显著提升 Diffusion 的 ...