LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

编辑｜Panda LeCun 的联合嵌入预测架构（JEPA）迎来了新进展。近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型： VL-JEPA 。据作者 Pascale Fung 介绍， VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。不同于传统的视觉-语言模型（VLM）通过自回归方式生成 token，VL-JEPA 预测的是目标文本的连续嵌入（embedding）。通过在抽象的表征空间中学习，该模型能够专注于与任务相关的语义，同时忽略表层语言形式的多变性。论文标题：VL-JEPA: Joint Embedding Predictive Architecture for Vision-language 论文地址：https://arxiv.org/abs/2512.10942 该论文共有四位共一作者：Delong Chen（陈德龙）、Mustafa Shukor、Théo Moutakanni、Willy Chung。JEPA 提出者、图灵奖得主 Yann LeCun 也在作者名单中。当前 V ...