RAE(表征自编码器)

Search documents
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 08:24
| 机器之心报道 | | --- | | 机器之心编辑部 | | 存在 10 多年后,VAE(变分自编码器)时代终于要淘汰了吗? | | 就在今天,纽约大学助理教授谢赛宁团队放出了新作 ——VAE 的替代解决方案 —— RAE(Representation Autoencoders,表征自编码器) 。 | | 他表示,三年前,DiT(Diffusion Transformer) 用基于 Transformer 的去噪骨干网络取代了传统的 U-Net。那时候就知道,笨重的 VAE 迟早也会被淘汰。如今,时 | | 机终于到了。 | 谢赛宁进一步做出了解释,DiT 虽然取得了长足的进步,但大多数模型仍然依赖于 2021 年的旧版 SD-VAE 作为其潜空间基础。这就带来了以下几个主要问题: 当然,RAE 的模型和 PyTorch 代码全部开源。这项工作的一作为一年级博士生 Boyang Zheng,其本科毕业于上海交通大学 ACM 班。 因此,谢赛宁团队将预训练的表征编码器(如 DINO、SigLIP、MAE)与训练好的解码器相结合,以取代传统的 VAE,形成了一种新的结构 —— 表征自编码器 (RAE)。 这种 ...
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 08:16
时令 发自 凹非寺 量子位 | 公众号 QbitAI 昔日风光无限的VAE,终于被宣判"退役"? 谢赛宁团队 最新研究给出了答案—— VAE的时代结束,RAE将接力前行 。 其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预 训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码 器)。 这种新结构不仅能提供高质量重建结果,还具备语义丰富的潜空间,同时支持可扩展的基于变换器的架构。 该方法在无需额外表示对齐损失的情况下,实现了更快的收敛速度。通过采用配备轻量级宽型DDT头部的DiT变体,他们在ImageNet上取得 强劲的图像生成效果: 下面具体来看。 VAE退役,RAE当立 如今,Diffusion Transformer虽已取得长足发展,但多数模型仍依赖2021年的旧版SD-VAE构建潜空间。 这引发了几大核心问题: 256×256分辨率下,无引导(no guidance)FID= 1.51; 256×256和512 ...