LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
机器之心·2025-12-20 07:00

编辑|Panda LeCun 的联合嵌入预测架构(JEPA)迎来了新进展。 近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型: VL-JEPA 。 据作者 Pascale Fung 介绍, VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。 不同于传统的视觉-语言模型(VLM)通过自回归方式生成 token,VL-JEPA 预测的是目标文本的连续嵌入(embedding)。通过在抽象的表征空间中学习,该模型 能够专注于与任务相关的语义,同时忽略表层语言形式的多变性 。 论文标题:VL-JEPA: Joint Embedding Predictive Architecture for Vision-language 论文地址:https://arxiv.org/abs/2512.10942 该论文共有四位共一作者:Delong Chen(陈德龙)、Mustafa Shukor、Théo Moutakanni、Willy Chung。JEPA 提出者、图灵奖得主 Yann LeCun 也在作者名单中。 当前 V ...

LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL - Reportify