告别“图文不符”!FG-CLIP实现细粒度跨模态对齐,360开源模型重塑AI视觉理解
量子位·2025-04-28 06:36
正确答案是:"A light brown wood stool(一个浅棕色的木凳子)",注意看,这个木凳子位于画面的中央偏右,悄悄隐藏在狗狗的身后。 FG-CLIP团队 投稿 量子位 | 公众号 QbitAI CLIP的"近视"问题,被360搞定了。 360人工智能研究院最新图文跨模态模型 FG-CLIP ,宣布以"长文本深度理解"和"细粒度视觉比对"双突破,彻底解决了传统CLIP模型的"视觉 近视"问题,能够精准识别局部细节。 具体怎么个说法?先来个视力大挑战:找一找右边的哪句话,正确描述了左边图像里的内容? 可以发现,4个常用模型——CLIP、EVACLIP、SIGLIP、FINE-CLIP基于左侧图片选出的最匹配的文本描述是:A blue dog with a white colored head。 显然这个描述是错误的,这就是CLIP的"视觉近视"问题:会因为对比损失倾向于拉近全局图像与文本的嵌入,而非局部区域的对齐,削弱了细 粒度特征学习。 而FG-CLIP则精准命中了答案。 但是CLIP与后面发展的模型,在实际应用中依然面临以下的制约: 文本长度限制:CLIP的文本编码器仅支持77个token,难 ...