稠密监督 - filings, earnings calls, financial reports, news - Reportify

稠密监督

Search documents

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

机器之心· 2025-09-19 00:46

谢集，浙江大学竺可桢学院大四学生，于加州大学伯克利分校（BAIR）进行访问，研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell，第三作者为华盛顿大学的 Luke Zettlemoyer，通讯作者是 XuDong Wang, Meta GenAl Research Scientist，博士毕业于加州大学伯克利分校（BAIR 实验室），这篇工作为他在博士期间完成。背景：统一多模态理解与生成模型的挑战统一多模态模型（Unified Multimodal Models, UMMs）旨在将视觉理解和生成统一于单一模型架构。UMM 继承了多模态大语言模型 (Multimodal Large Language Models, MLLMs) 可以很轻松地辨别物体的左右、颜色、种类。但是很多生成模型连「一只黑色的猫和白色的狗」，「黄色西兰花」都无法生成。这体现了当前统一多模态模型在视觉理解和生成能力上的不平衡：它们往往在理解图像内容方面表现出色，但在根据文本描述生成图像时却力不从心。这是为什么呢？实际上，图片是一个「稠密」的模态，文字是一个「稀疏」的模态，从一个稠密的信息 ...

自监督训练

Artificial Intelligence

统一多模态模型（Unified Multimodal Models

自监督训练

Artificial Intelligence

统一多模态模型（Unified Multimodal Models