Workflow
AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密
自动驾驶之心·2025-11-05 00:04

点击按钮预约直播 深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而,现有的深度估计方法普遍存在边缘飞点(Flying Pixels)问题,而这会导致机器人执行决策时候,引发错误动作;三维重建时导致物体轮廓鬼影重重等。现有方法经历边 缘飞点主要因为以下原因: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 本文提出 Pixel-Perfect Depth (PPD),一种 直接在像素空间进行扩散生成的单目深度估计模型 ,从根源上避免了因 VAE 压缩导致的伪影问题。然而,高分辨率像素空间的扩散建模极具挑战:模型需兼顾 全局语义的一致性 与 局部细节的精确 性 ,否则极易出现结构失真或深度跳变。为此,本文设计了语义引导的扩散 Transformer(SP-DiT),在扩散过程中引入 来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力。同时,本文提出一种 判别式模型 (如 Depth Anything v2, Depth Pro )由于回归损失的平滑倾向,容易在深度 ...