Workflow
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
量子位·2025-10-12 07:30

SAIL-VL2团队 投稿 量子位 | 公众号 QbitAI 2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型 SAIL-VL2 。 SAIL-VL2 以2B、8B等中小参数规模, 在 10 6个数据集 实现性能突破 ,尤其在MMMU、MathVista等 复杂推理 基准超越同规模模型,甚 至比肩更大参数的闭源模型。 方法上,SAIL-VL2通过 数据、训练、架构 三大维度的创新,为社区提供"小模型也能有强能力"新范式。 SAIL-VL2既具备细粒度视觉感知能力,又能在复杂推理任务中媲美更大规模模型。同时,团队通过开源模型与推理代码,提供可扩展的多模 态基础模型。 Pretrain:三大核心创新 MoE架构:参数与计算的平衡 架构层面:稀疏MoE+灵活编码器,平衡性能与效率 SAIL-VL2突破传统稠密LLM的架构,引入稀疏混合专家 (MoE) ,并提供多规格模型配置,满足不同场景需求: | Model | Vision Encoder Language Model | #Param | | | --- | --- | --- | --- | | | ...