Workflow
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
机器之心·2025-11-15 09:23

机器之心报道 编辑:泽南、杨文 现在,只需要一个简单的、用深度光线表示训练的 Transformer 就行了。 这项研究证明了,如今大多数 3D 视觉研究都存在过度设计的问题。 本周五,AI 社区最热门的话题是一篇新论文,有关 3D 建模的。 经过一年多的探索,来自字节跳动的团队推出了 Depth Anything 3(DA3),将单目深度估计扩展到了任何 视角场景,让计算机实现了媲美人类的空间感知。 为了追求最小建模,DA3 的工作获得了 两个关键见解 : 就是这样的方法, 在姿态估计方面比当前业界最先进的方法 (SOTA) 提升了 44%,在几何估计方面提升了 25%。 原来 3D 视觉竟然这么简单? 纽约大学计算机科学助理教授、知名 AI 学者谢赛宁表示,论文有点像电影:第一部通常是最好的,续集往 往更复杂却并不更精彩。但这完全不适用于 DepthAnything 系列。 Bingyikang 的团队每次都能让事情变得更 简单、更易于扩展。 论文:https://arxiv.org/abs/2511.10647 项目页面:https://depth-anything-3.github.io 代码:htt ...