稠密监督
Search documents
理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA
机器之心· 2025-09-19 00:46
谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist,博士毕业于加州大学伯克利分校 (BAIR 实验室),这篇工作为他在博士期间完成。 背景:统一多模态理解与生成模型的挑战 统一多模态模型(Unified Multimodal Models, UMMs)旨在将视觉理解和生成统一于单一模型架构。UMM 继承了多模态大语言模型 (Multimodal Large Language Models, MLLMs) 可以很轻松地辨别物体的左右、颜色、种类。但是很多生成模型连「一只黑色的猫和白色的狗」,「黄色西兰花」都无法生成。这体现了当前统 一多模态模型在视觉理解和生成能力上的不平衡:它们往往在理解图像内容方面表现出色,但在根据文本描述生成图像时却力不从心。这是为什么呢? 实际上,图片是一个「稠密」的模态,文字是一个「稀疏」的模态,从一个稠密的信息 ...