Unified Autoencoding(UAE)
Search documents
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
机器之心· 2026-01-13 10:04
背景:为什么 "懂语义" 和 "还原细节" 总是很难兼得? 作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 "频 率谱" 的统一视角,把语义编码器与像素编码器的表示冲突真正 "合并解决"。 在视觉基础模型里,我们经常同时依赖两类能力: 但现实问题是:很多系统被迫把两套表示 "拼在一起用":语义一套、像素一套,训练效率下降、表示互相干扰、而且很难得到一个既 "语义强" 又 "细节强" 的统一 潜空间。 论文把这种矛盾归结为一个更本质的问题:世界的信息到底如何被表示,才能既共享语义,又保留各自模态的细粒度。 核心洞察:Prism Hypothesis(棱镜假说) 论文标题: The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding 代码仓库:https://github.com/Weich ...