SAM

Search documents
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 23:33
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 10:37
点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我 -> 领取大模型巨卷干货 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 当 Segment Anything Model(SAM) 以 分割万物 的能力震撼计算机视觉领域时,研究者们很快发现了它的局限: 无法同时处理多任务、难以应对类别特异性分割、更无法融入统一的多模态框架 。 如今,来自中山大学、鹏城实验室和美团的团队提出了 X-SAM ,一个将分割范式从 分割任何事物 推向 任何分割 的突破性框架。 在超过 20 个分割数据集、7 大核心任务上,X-SAM 全面超越现有模型,不仅能处理文本指令驱动的分割任务,还能理解点、框、涂鸦等视觉提 示,甚至能在跨图像场景中实现精准分割。这一成果不仅刷新了像素级视觉理解的基准,更让多模态大模型真正具备了「看懂像素」的能力。 从 SAM 的局限到 X-SAM 的突破:为什么需要统一分割框架? SAM 的出现曾被视为视觉分割的「万能钥匙」,它能通过点、框等视觉提示精准分割图像中的任意对象。但在实际应用中,研究者们逐渐发现了 它的「短板」: 与此同时,多模态大语言模型(ML ...
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 00:14
作者丨 小红师兄 编辑丨具身智能之心 原文链接: https://zhuanlan.zhihu.com/p/1928781468743766758 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 最近读到一篇很不错的论文《DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge》,提出了一种新的视觉-语言-动作 (VLA)模型,名叫DreamVLA。这个模型的核心在于让机器人不仅能"看"图像、"听"指令,还能通过预测环境的动态、空间和语义信息,做出更精准的动作决 策。 背景:机器人为啥需要"想"得更多? 传统的VLA模型通常直接把视觉输入(比如摄像头拍的画面)和语言指令(比如"把杯子拿过来")映射到动作上。这种方法简单直接,但问题在于,画面里往往 有很多无关信息,机器人可能会被干扰,或者在复杂环境中反应不够灵活。比如,场景里可能有桌子、椅子、杂 ...