SAM2 - filings, earnings calls, financial reports, news

SAM2

Search documents

TPAMI | DC-SAM：打破SAM交互限制，基于循环一致性的图像与视频上下文分割方法

机器之心· 2026-01-20 04:51

上下文分割（In-Context Segmentation）旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础，但将其应用于此仍受限于提示（如点或框）构建，这样的需求不仅制约了批量推理的自动化效率，更使得模型在处理复杂的连续视频时，难以维持时空一致性。北京邮电大学联合南洋理工大学等机构发表的 IEEE TPAMI 期刊论文《DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency》，不仅为图像和视频的上下文分割建立了统一的高效框架 DC-S A M ，还构建了首个视频上下文分割基准 IC-VOS 。研究团队巧妙地提出基于提示微调的 "循环一致性" 机制，通过正负双分支与循环一致性注意力的协同，配合 Mask-Tube 策略，实现了 SAM 与 SAM2 在图像及视频上下文分割任务上的统一与高效适配。实验结果显示，DC-SAM 在多个基准测试中均取得了 SOTA 性能：在 COCO-20 上达到 55.5 mIoU，在 Pascal-5 上达 ...

自动驾驶之心· 2025-12-06 03:04

本文只做学术分享，如有侵权，联系删文点击下方卡片，关注" 大模型之心Tech "公众号戳我-> 领取大模型巨卷干货从SAM1到SAM3，Meta做了什么？紧接着， SAM2 （2024年发布）在架构上进行了重要优化，增强了对视频分割和动态场景的支持，同时提升了模型的稳定性和精度。SAM2强化了模型对多个实例的跟踪能力，使得该模型不仅在静态图像中表现出色，也能够应对视频中复杂的物体动态变化。然而， SAM3 的发布更是让人瞠目结舌。相比于SAM1和SAM2，SAM3不仅在精度上达到了全新高度，还拥有更强大的多模态支持，能够通过语音、文本、图像等多种输入方式进行精准的物体分割。通过全新的 Promptable Concept Segmentation （PCS）任务，SAM3在开放词汇概念分割和多物体跟踪方面，达到了前所未有的精准度和灵活性。PCS让SAM3能够应对更复杂的开放词汇概念，不仅仅是简单的物体分割，而是可以识别并分割任何你想要的对象，无论是猫、狗，还是"黄色的出租车"，甚至是"城市中的小巷子"。 SAM1、SAM2，到SAM3，每一次进化都是一次飞跃 | 技术指标 | SA ...

Meta Platforms(US:META)

Promptable Concept Segmentation (PCS)

可提示图像分割（Promptable Visual Segmentation

PVS）

Artificial Intelligence

SAM3

SAM2

Promptable Concept Segmentation (PCS)

可提示图像分割（Promptable Visual Segmentation

PVS）

Artificial Intelligence

SAM3

SAM2

分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

量子位· 2025-06-14 08:33

PAM团队投稿量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了！一次交互，「分割+识别+解释+描述」全搞定，同时支持图像、视频和长视频，文本&Mask同时输出！由港中文MMLab、港理工、北京大学等机构开源的 PAM （Perceive Anything Model）模型，能够在保留SAM2分割一切、追踪一切能力的基础上，同时输出丰富的语义信息。为了训练这样一个强大的模型，PAM团队还构建了一个超大规模高质量训练数据集：拥有 150万个图像区域+60万个视频区域标注实验结果表明，PAM仅使用 3B参数，就在多个图像和视频理解基准上全面刷新或逼近SOTA，且具备更优的推理效率和显存占用，真正实现性能与轻量的统一。所有数据均已完全开源。 PAM：准确定位一键输出 SAM2拥有强大的分割能力，可以"分割一切物体"，在视频中能够高效追踪任意目标，表现惊艳！但它也有一个明显的局限：无法提供定位目标的任何语义信息（比如物体是什么、有何功能、处于什么状态等）。一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力，进行视频理解。然而：这些 ...

图像和视频理解

语义信息输出

PAM（Perceive Anything Model）

SAM2

图像和视频理解

语义信息输出

PAM（Perceive Anything Model）

SAM2