Workflow
ObjectRelator框架
icon
Search documents
AI打通第一/第三人称视觉,跨视角视觉理解新SOTA|ICCV 2025 Highlight
量子位· 2025-10-18 09:30
ObjectRelator团队 投稿 量子位 | 公 众号 Q bitAI 具身智能落地迈出关键一步,AI拥有第一人称与第三人称的"通感"了! INSAIT、复旦大学等单位联合提出 O bjectRelat or框架 ,让 AI精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解 。 实验中,ObjectRelator在Ego (第一人称视觉) 转Exo (三人称视觉) 和Exo转Ego两个任务上都显著超越了所有基线模型,拿下SOTA。 Ego→Exo效果,be like: Exo→Ego也可以很好地对齐: 目前,该工作已被ICCV 2025接收为Highlight论文,代码已开源。 Ego与Exo之间的鸿沟 在人类技能习得过程中,需要在两个视角之间进行流畅的转换。 我们在观看别人的演示过程时,会尝试在脑海中想象自己进行这些操作的场景。然而这一跨视角理解的能力对于计算机和机器人来说却是一个 巨大的挑战,制约着机器人学习、VR交互等关键领域的发展。 第一人称视角具备较强的沉浸感与交互细节捕捉能力,能够精确刻画主体与环境之间的动态交互过程。然而,其 视觉范围受限、画面稳定性 较差,难以全面反映场景全貌 。 尽 ...