TriMap视频扩散模型

Search documents
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 01:18
LangScene-X团队 投稿 量子位 | 公众号 QbitAI 最少只用2张图,AI就能像人类一样理解3D空间了。 ICCV 2025最新中稿的 LangScene-X : 以全新的 生成式框架 ,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视 角。 团队一举攻克传统方法依赖密集视图的痛点,更将多模态信息统一在单一模型中,为空间智能领域打开了新大门。 这意味着, 生成式模型能像人类一样,仅凭稀疏视觉输入构建融合语言理解的3D空间认知系统 。 3D语言场景生成的困境 当前3D语言场景生成有以下3个核心困境 : 密集视图依赖与稀疏输入缺失的矛盾 传统方法(如NeRF、Gaussian Splatting)高度依赖校准后的密集视图(通常超过20个视角),当输入视图稀疏(如仅2-3张图像)时,会 出现严重的3D结构伪影和语义合成失真。例如,LangSplat和LangSurf在厨房场景中使用稀疏视图时,物体边界模糊率超过40%,而真实场 景中获取密集视图往往成本高昂。 跨模态信息割裂与3D一致性缺失 外观、几何、语义三类信息通常由独立模块处理,导致模态间 ...