推特吵架吵出篇论文,谢赛宁团队新作iREPA只要3行代码
3 6 Ke·2025-12-16 09:42
要说真学术,还得看推特。 刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。 这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续—— 多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。 致谢部分还感谢了当时参与讨论的网友。 一篇推特引发的学术论文 事情是这样的。 一位网友在8月份表示: 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖 的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。 (注:稠密任务就是要求模型对图像中的"每一个像素"或"每一个局部区域"都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而 不仅仅是全局分类标签) 对于网友的观点,谢赛宁表示: 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱 的关联。这并不是[CLS]token的问题,而是高层语义与低层像素 ...