抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入
机器之心·2025-11-03 23:35

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。 近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文 本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。 SAIL-Embedding 能力概览 论文标题: SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model 技术报告: https://arxiv.org/pdf/2510.12709 HuggingFace: https://huggingface.co/BytedanceDouyinContent/collections 突破传统局限: 全模态 + 工业级优化双管齐下 现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。SAIL- Embedding 则从根源上解决这些 ...

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入 - Reportify