SDXL VAE
Search documents
LeCun、谢赛宁团队重磅论文:RAE能大规模文生图了,且比VAE更好
机器之心· 2026-01-24 01:53
编辑|Panda 在文生图模型的技术版图中,VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX,再到一系列扩散 Transformer,主流路线高度一致:先用 VAE 压缩视觉信息, 再在潜空间中完成生成。这条路径被反复验证、规模化扩展,也几乎没有再被认真挑战过。 但挑战者其实早已到来,它就是谢赛宁团队提出的 表征自编码器(RAE) ,详见我们去年十月的报道《 VAE 时代终结?谢赛宁团队「RAE」登场,表征自编码 器或成 DiT 训练新基石 》。 现在,RAE 方向又诞生了一项新的重磅成果。并且是来自 Rob Fergus、Yann LeCun 以及谢赛宁三位业内知名学者领导的一个联合团队。 | Data | | --- | | Models | | Code | | Website | 论文标题:Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders 他们解答了一个更加基础的问题: 我们真的需要 VAE 才能做好大规模文生图吗? 这篇工作给出的答案颇为激进。该团队系统性地扩展了「表 ...