谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位·2025-11-18 05:02
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 单Transformer搞定任意视图3D重建! 这是字节Seed康炳易团队带来的最新研究成果 Depth Anything 3 (下称DA3),获谢赛宁盛赞。 架构足够简单,核心能力却不差。能从一张图、一组多视角照片甚至一段随手拍的视频里,精准算出物体深度、还原相机位置,不仅能拼出完 整3D场景,还能脑补出没拍过的新视角图像。 而且,它在团队全新打造的视觉几何基准上横扫所有任务,相机定位精度平均提升 35.7% ,几何重建准确率涨了 23.6% ,单目深度估计还 超越了自家前代DA2。 以前的3D视觉模型,想做单图深度估计?得单独训练一个模型;想搞多视角3D重建?又要换一套架构。 就连算个相机位置都得搭专属模块,不仅开发成本高,还没法充分利用大规模预训练模型的优势,数据依赖也很严重。 还有就是这些模型往往"术业有专攻",那DA3的单一极简操作究竟是怎样的呢? 极简设计也能打 核心秘诀就两点:一是只用一个普通的视觉Transformer当基础;二是预测目标只抓 深度 和 光线 两个核心。 从架构图上可以看出来,DA3的任务流程可分为四大环节。 首先是输入处理 ...