ReAlign - filings, earnings calls, financial reports, news - Reportify

ReAlign

Search documents

数据邪修大法好：仅用文本数据就能预训练多模态大模型

量子位· 2026-03-03 04:25

ReVision团队投稿量子位 | 公众号 QbitAI 没有图片，也能预训练多模态大模型? 在多模态大模型（MLLM）的研发中，行业内长期遵循着一个昂贵的共识：没有图文对（Image-Text Pairs），就没有多模态能力。为了让模型学会看图，不得不耗费巨资收集海量图片，并为每一张图片生成高质量的图像描述。这种一一对应的强监督数据，一直被视为多模态训练的燃料。理论基石：为什么"表征对齐"能替代"配对"？在深入几何细节之前，必须阐明ReVision能够成立的底层约束条件。本文的方法并非适用于任意两个独立的特征提取器，而是严格构建在多模态对比学习（Multimodal Contrastive Learning）所建立的共享表征空间（Joint Representation Space）这一基础之上。但来自港科大（广州）、NUS等机构的最新研究 ReVision 给出了一个反直觉的结论：其实，在多模态大模型最依赖大规模图文对数据的预训练阶段（Pretraining），那些昂贵的配对关系并不是必须的。 1. 预训练已构建了「语义拓扑一致性」：经过海量数据预训 ...

多模态大模型

多模态对比学习

共享表征空间

多模态大模型

多模态对比学习

共享表征空间