Depth Anything 3(DA3)
Search documents
谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建
量子位· 2025-11-18 05:02
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 单Transformer搞定任意视图3D重建! 这是字节Seed康炳易团队带来的最新研究成果 Depth Anything 3 (下称DA3),获谢赛宁盛赞。 架构足够简单,核心能力却不差。能从一张图、一组多视角照片甚至一段随手拍的视频里,精准算出物体深度、还原相机位置,不仅能拼出完 整3D场景,还能脑补出没拍过的新视角图像。 而且,它在团队全新打造的视觉几何基准上横扫所有任务,相机定位精度平均提升 35.7% ,几何重建准确率涨了 23.6% ,单目深度估计还 超越了自家前代DA2。 以前的3D视觉模型,想做单图深度估计?得单独训练一个模型;想搞多视角3D重建?又要换一套架构。 就连算个相机位置都得搭专属模块,不仅开发成本高,还没法充分利用大规模预训练模型的优势,数据依赖也很严重。 还有就是这些模型往往"术业有专攻",那DA3的单一极简操作究竟是怎样的呢? 极简设计也能打 核心秘诀就两点:一是只用一个普通的视觉Transformer当基础;二是预测目标只抓 深度 和 光线 两个核心。 从架构图上可以看出来,DA3的任务流程可分为四大环节。 首先是输入处理 ...
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心· 2025-11-15 09:23
机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。 经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何 视角场景,让计算机实现了媲美人类的空间感知。 为了追求最小建模,DA3 的工作获得了 两个关键见解 : 就是这样的方法, 在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。 原来 3D 视觉竟然这么简单? 纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影:第一部通常是最好的,续集往 往更复杂却并不更精彩。但这完全不适用于 DepthAnything 系列。 Bingyikang 的团队每次都能让事情变得更 简单、更易于扩展。 论文:https://arxiv.org/abs/2511.10647 项目页面:https://depth-anything-3.github.io 代码:htt ...