巧妙!一个传统技术让国产视觉基础模型直接上大分
量子位·2025-05-23 06:14
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 咱就是说啊, 视觉基础模型 这块儿,国产AI真就是上了个大分—— Glint-MVT ,来自格灵深瞳的最新成果。 先来看下成绩—— 线性探测 (LinearProbing): 简单来说,线性探测是一种测试预训练模型效果的小技巧,测的就是基本功扎不扎实。它的做法是: 把模型最后一部分换成简单的线性层,其他部分全部保持原样不动;然后只训练这个新加的线性层,通过它的表现来判断模型之前学到的特 征好不好用。 再来看应用效果。 如果说视觉基础模型是一个底座,那么它的下游任务,像 "图像理解+分割一切" ,便是更为直观的效果展现。 例如下面这张图片,然后我们可以问一下AI: 你能提供一个分割掩膜给这个图像中触摸篮球的人吗? 很显然,这个任务的难点在于拿篮球的人被其他人的手、身体等部位挡住,分割难度也大幅增加。 然而,国产AI是不在怕的,啪的一下,超精细地把要求的人物给抠了出来: 我们再来看下更加复杂的案例: 这个测试是在26个分类测试集中跟CLIP和OpenCLIP做了对比,结果显示,国产视觉基础模型平均准确率比OpenCLIP高2.3%,比CLIP高 1.1%。 面 ...