Workflow
SAM2
icon
Search documents
TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法
机器之心· 2026-01-20 04:51
上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础, 但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。 北京邮电大学联合南洋理工大学等 机构发表的 IEEE TPAMI 期刊论文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》,不仅为 图像和视频的上下文分割建立了统一的高效框架 DC-S A M ,还构建了首个视频上下文分割基准 IC-VOS 。 研究团队巧妙地提出基于提示微调的 "循环一致性" 机制,通过正负双分支与循环一致性注意力的协同,配合 Mask-Tube 策略,实现了 SAM 与 SAM2 在图像及视 频上下文分割任务上的统一与高效适配。 实验结果显示,DC-SAM 在多个基准测试中均取得了 SOTA 性能:在 COCO-20 上达到 55.5 mIoU,在 Pascal-5 上达 ...
从SAM1到SAM3,Meta做了什么?
自动驾驶之心· 2025-12-06 03:04
本文只做学术分享,如有侵权,联系删文 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 从SAM1到SAM3,Meta做了什么? 紧接着, SAM2 (2024年发布)在架构上进行了重要优化,增强了对 视频分割和动态场景 的支持,同时提升了模型的稳定性和精度。SAM2强化了模型对多个实 例的跟踪能力,使得该模型不仅在静态图像中表现出色,也能够应对视频中复杂的物体动态变化。 然而, SAM3 的发布更是让人瞠目结舌。相比于SAM1和SAM2,SAM3不仅在精度上达到了全新高度,还拥有更强大的多模态支持,能够通过 语音、文本、图像 等多种输入方式进行精准的物体分割。通过全新的 Promptable Concept Segmentation (PCS)任务,SAM3在开放词汇概念分割和多物体跟踪方面,达到了前所未 有的精准度和灵活性。PCS让SAM3能够应对更复杂的开放词汇概念,不仅仅是简单的物体分割,而是可以识别并分割任何你想要的对象,无论是猫、狗,还是"黄 色的出租车",甚至是"城市中的小巷子"。 SAM1、SAM2,到SAM3,每一次进化都是一次飞跃 | 技术指标 | SA ...
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 08:33
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 08:32
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...