RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
机器之心·2025-11-02 08:01
本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,发表 多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。指导教授是王立威老 师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。 统一多模态模型要求视觉表征必须兼顾语义(理解)和细节(生成 / 编辑)。早期 VAE 因语义不足而理解 受限。近期基于 CLIP 的统一编码器,面临理解与重建的权衡:直接量化 CLIP 特征会损害理解性能;而为 冻结的 CLIP 训练解码器,又因特征细节缺失而无法精确重建。例如,RAE 使用冻结的 DINOv2 重建, PSNR 仅 19.23。 为解决这一核心矛盾,UniLIP 提出创新的 CLIP 微调框架,通过 两阶段重建训练与自蒸馏损失 ,在 不损失 模型原有理解性能 的同时,实现了 卓越的图像重建能力 。UniLIP 可直接替换 MLLM(如 InternVL)中的 原有 CLIP 模块(如 InternViT),并 保持甚至略微提升其理解性能 。 不同于 RAE 仅在 ImageNet 上进 ...