自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
机器之心·2026-01-02 05:00

编辑|Panda 众所周知,LeCun 不喜自回归,并且还提出了一种名为联合嵌入预测架构(JEPA)的新方向,并且该方向也一直在有 新成果 涌现。 然而,自回归模型的成功也是有目共睹的,尤其是在语言领域。那么,生成式预训练在自然语言上的成功能否在视觉领域重现呢? 近日,密歇根大学、纽约大学、普林斯顿大学和弗吉尼亚大学的一个联合研究团队对此给出了肯定答案。 只不过,他们不是训练模型输出用于下游任务的特征,而是让它们生成嵌入(embeddings)以直接执行预测任务。可以说,这是从学习表征(learning representations)到学习模型(learning models)的一种范式转变。 具体而言,模型会通过因果掩码(causal masking)和停止梯度(stop gradient),以过去图块嵌入为条件,学习预测未来的图块嵌入。类似于下一 token 预测,该 团队将这种方法称为 下一嵌入预测自回归(Next-Embedding Predictive Autoregression) ,简称 NEPA 。 | Sihan Xu1 Ziqiao Ma1 Wenhao Chai3 Xuweiyi Ch ...