SURPRISE3D

Search documents
SURPRISE3D:首创复杂3D场景空间推理数据集,突破语义捷径依赖瓶颈
具身智能之心· 2025-07-13 09:48
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiaxin Huang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与背景 空间推理是具身AI和机器人系统的核心。智能体要在真实环境中导航、操作物体或与人类互动,必须解读 根植于3D空间布局和上下文的指令。例如,机器人服务员需识别"沙发左侧的桌子",家庭助手需从"我渴 了"推断出要拿最近的杯子,这都要求超越物体类别识别,推理空间关系、视角依赖参考和实用意图,这种 语言引导的空间理解对导航、操作和人机交互至关重要。 但现有3D视觉-语言基准未能有效捕捉和评估空间推理。多数数据集依赖显式物体参考,模型只需匹配命名 类别或固定模板即可定位目标,无需真正的空间推理,导致模型凭借表面文本模式或语义捷径获得良好表 现。 现有3D视觉-语言基准存在三大局限: 这些局限导致模型依赖语义先验和数据集偏差,而非学习空间推理。因此,需要一个能将空间理解与语义 识别分离、且查询需结合场景几何解读 ...