Workflow
ReAlign
icon
Search documents
数据邪修大法好:仅用文本数据就能预训练多模态大模型
量子位· 2026-03-03 04:25
ReVision团队 投稿 量子位 | 公众号 QbitAI 没有图片,也能预训练多模态大模型? 在多模态大模型 (MLLM) 的研发中,行业内长期遵循着一个昂贵的共识: 没有图 文对 (Image-Text Pairs),就没有多模态能力 。 为了让模型学会看图,不得不耗费巨资收集海量图片,并为每一张图片生成高质量的图像描述。 这种一一对应的强监督数据,一直被视为多 模态训练的燃料。 理论基石:为什么"表征对齐"能替代"配对"? 在深入几何细节之前,必须阐明ReVision能够成立的 底层约束条件 。本文的方法并非适用于任意两个独立的特征提取器,而是严格构建在多 模态对比学习 (Multimodal Contrastive Learning) 所建立的 共享表征空间 (Joint Representation Space) 这一基础之上。 但来自港科大(广州)、NUS等机构的最新研究 ReVision 给出了一个反直觉的结论: 其实, 在多模态大模型最依赖大规模图文对数据的 预训练阶段(Pretraining), 那些昂贵的配对关系并不是必须的 。 1. 预训练已构建了「语义拓扑一致性」: 经过海量数据预训 ...