AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心·2025-06-24 14:09
背景与动机 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 当前视觉语言模型(VLMs)在空间推理任务(如物体位置/大小比较、多视角关系理解)中存在显著不 足。现有数据集存在三大局限: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 核心贡献 作者丨 Nianchen Deng等 1. InternSpatial数据集 编辑丨具身智能之心 规模与结构 : 指令多样性 :支持19种指令格式(Table 1对比) 1. 场景单一性 :数据源集中于室内/室外场景(如SpatialVLM、OSD),缺乏驾驶、具身导航等多样化环 境; 2. 指令格式受限 :仅支持自然语言或区域掩码(如SpatialQA仅用文本,OSD依赖掩码),难以覆盖真实 应用中的多样化查询形式; 3. 多视角监督缺失 :现有数据聚焦单图推理(占比超90%),缺乏跨视角时空关系建模能力。 视觉格式 :原始图/带边界框图/掩码图/编号物体图(Figure 2示例) 1200万QA对(950万单视图 + ...