生成式视觉预训练

Search documents
OpenVision 2:大道至简的生成式预训练视觉编码器
机器之心· 2025-09-15 12:19
本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为 UCSC博士生,研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航(UCSC)、张乐天(USCS)、王子瑞(Apple)、郑泽宇 (UCB)、周郁音(UCSC)。通讯作者为UCSC的谢慈航教授。 论文标题:OpenVision 2: A Family of Generative Pretrained Visual Encod ers for Multimodal Learning 论文地址 :arXiv:2509.01644 项目主页 : https://ucsc-vlaa.github.io/OpenVision2 代码与模型 :GitHub · UCSC-VLAA/OpenVision Hugging Face 模型库 :OpenVision 2 on HuggingFace 在多模态大模型快速演进的浪潮中,视觉模块一直是支撑整个体系的关键基石。长期以来,CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CL ...