武汉大学&北理工等SOTA方案!DEGround:增强具身三维环境中的语境理解
具身智能之心·2025-07-12 13:59
点击下方 卡片 ,关注" 具身智能 之心 "公众号 一、你的3D Grounding 模型真的work吗? 在具身智能系统中,智能体需要依靠第一视角的3D感知算法来理解周边环境。作为其中的核心任务之一,Embodied 3D Grounding是指根据ego-centric的RGB- D图像序列以及语言描述在三维空间中定位目标对象,要求模型能够融合语言与三维视觉信息,准确识别出语句中所指代的物体。当前主流方法多采用两阶段策 略,即先利用检测模型提取三维区域特征,再进行语言引导的grounding微调。这自然引出一个疑问: 第二阶段这种针对 Grounding 的微调,其效果究竟如何,它 真的work吗? 令人颇感意外的是,实证结果显示,即便是当前最先进的Grounding模型,其实际表现也远未达到预期。相反,那些完全未接受语言监督、仅依赖目标类别进行筛 选的检测模型,在Grounding任务的评估中竟取得了更优的结果。具体而言,考虑到任务中的语言指令为模板生成,本文通过规则解析提取出目标物体的类别标 签,之后使用该类别从检测模型中筛选对应预测框,直接作为Grounding的输出。理论上,这种做法缺乏语言理解过 ...