Workflow
SAM2
icon
Search documents
从SAM1到SAM3,Meta做了什么?
自动驾驶之心· 2025-12-06 03:04
本文只做学术分享,如有侵权,联系删文 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 从SAM1到SAM3,Meta做了什么? 紧接着, SAM2 (2024年发布)在架构上进行了重要优化,增强了对 视频分割和动态场景 的支持,同时提升了模型的稳定性和精度。SAM2强化了模型对多个实 例的跟踪能力,使得该模型不仅在静态图像中表现出色,也能够应对视频中复杂的物体动态变化。 然而, SAM3 的发布更是让人瞠目结舌。相比于SAM1和SAM2,SAM3不仅在精度上达到了全新高度,还拥有更强大的多模态支持,能够通过 语音、文本、图像 等多种输入方式进行精准的物体分割。通过全新的 Promptable Concept Segmentation (PCS)任务,SAM3在开放词汇概念分割和多物体跟踪方面,达到了前所未 有的精准度和灵活性。PCS让SAM3能够应对更复杂的开放词汇概念,不仅仅是简单的物体分割,而是可以识别并分割任何你想要的对象,无论是猫、狗,还是"黄 色的出租车",甚至是"城市中的小巷子"。 SAM1、SAM2,到SAM3,每一次进化都是一次飞跃 | 技术指标 | SA ...
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 08:33
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 08:32
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...