Depth Anything 3（DA3） - filings, earnings calls, financial reports, news

Depth Anything 3（DA3）

Search documents

量子位· 2025-11-18 05:02

闻乐发自凹非寺量子位 | 公众号 QbitAI 单Transformer搞定任意视图3D重建！这是字节Seed康炳易团队带来的最新研究成果 Depth Anything 3 （下称DA3），获谢赛宁盛赞。架构足够简单，核心能力却不差。能从一张图、一组多视角照片甚至一段随手拍的视频里，精准算出物体深度、还原相机位置，不仅能拼出完整3D场景，还能脑补出没拍过的新视角图像。而且，它在团队全新打造的视觉几何基准上横扫所有任务，相机定位精度平均提升 35.7% ，几何重建准确率涨了 23.6% ，单目深度估计还超越了自家前代DA2。以前的3D视觉模型，想做单图深度估计？得单独训练一个模型；想搞多视角3D重建？又要换一套架构。就连算个相机位置都得搭专属模块，不仅开发成本高，还没法充分利用大规模预训练模型的优势，数据依赖也很严重。还有就是这些模型往往"术业有专攻"，那DA3的单一极简操作究竟是怎样的呢？极简设计也能打核心秘诀就两点：一是只用一个普通的视觉Transformer当基础；二是预测目标只抓深度和光线两个核心。从架构图上可以看出来，DA3的任务流程可分为四大环节。首先是输入处理 ...

3D重建

Transformer

人工智能

Depth Anything 3（DA3）

3D重建

Transformer

人工智能

Depth Anything 3（DA3）

3D视觉被过度设计？字节Depth Anything 3来了，谢赛宁点赞

机器之心· 2025-11-15 09:23

机器之心报道编辑：泽南、杨文现在，只需要一个简单的、用深度光线表示训练的 Transformer 就行了。这项研究证明了，如今大多数 3D 视觉研究都存在过度设计的问题。本周五，AI 社区最热门的话题是一篇新论文，有关 3D 建模的。经过一年多的探索，来自字节跳动的团队推出了 Depth Anything 3（DA3），将单目深度估计扩展到了任何视角场景，让计算机实现了媲美人类的空间感知。为了追求最小建模，DA3 的工作获得了两个关键见解：就是这样的方法，在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%，在几何估计方面提升了 25%。原来 3D 视觉竟然这么简单？纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示，论文有点像电影：第一部通常是最好的，续集往往更复杂却并不更精彩。但这完全不适用于 DepthAnything 系列。 Bingyikang 的团队每次都能让事情变得更简单、更易于扩展。论文：https://arxiv.org/abs/2511.10647 项目页面：https://depth-anything-3.github.io 代码：htt ...

3D视觉

人工智能

Depth Anything 3（DA3）

3D视觉

人工智能

Depth Anything 3（DA3）