Workflow
实例解耦
icon
Search documents
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
3 6 Ke· 2025-10-31 08:28
人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言模型 (VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 。 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下 文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: InsScene-15K数据集的构建 InsScene-15K 数据集是通过一个新颖的数据管理流程构建的 ,该流程由 SAM2 驱动 ,并整合了三种不同来源的数据,每种来源的处理方式不同。 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-1 ...
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 04:09
iGGT团队 投稿 量子位 | 公众号 QbitAI 人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言 模型(VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空 间重建与实例级上下文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景 、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例 级掩码 。 实例解耦与即插即用: 首创"实例接地的 ...