Workflow
X-SAM:统一图像分割多模态大模型,20+个数据集上均SoTA
具身智能之心·2025-08-21 00:03

点击进入→ 具身 智能之心 技术交流群 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型 等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。 背景与动机 Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。 多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用 化模型的发展。 中山大学、鹏城实验室、美团联合提出 X- SA M —— 一个统一的图像分割多模态大模型,将 分割范式从 「 分割万 物 」扩展到 「 任意分割 」 。X-SAM 引入了 统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了 视觉定位分割(V ...