开源即屠榜!UniME多模态框架登顶MMEB全球训练榜,刷新多项SOTA纪录
量子位·2025-05-08 01:03
UniME团队 投稿 量子位 | 公众号 QbitAI 告别CLIP痛点,更懂语义关联的跨模态理解新SOTA来了! 格灵深瞳、阿里ModelScope团队,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME,一经推出就刷新MMEB训练榜纪 录。 △ 图片于2025年5月6日08:00 UTC+8截取 UniME作为一个创新性的两阶段框架,所展现的卓越的组合理解力,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力,并在多 个任务中达到了新的SOTA。 由于LLM采用自回归解码器架构,因果掩码机制会从本质上限制了它们的判别能力。 为了解决这一限制,团队引入了如图所示的文本判别知识蒸馏。 目前,该项目已开源,可点击文末链接一键获取~ 以下是UniME的更多相关细节。 UniME训练框架拆解 第一阶段:文本判别知识蒸馏 训练 受E5V等之前研究的启发,研究团队第一阶段选择使用纯文本数据来增强了MLLM中LLM语言组件的嵌入能力。 从最先进的基于LLM的嵌入模型NV-Embed V2 (该模型在对比训练中移除了因果注意力掩码并使用多个多样化的数据集进行训练) 中转移 知识。 具体来说,团队首先将 ...