多模态视觉问答

Search documents
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨机器之心 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文主要介绍来自该团队的最新论文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。 本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能, 但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。 为弥补这一空缺, ToolVQA 共包含 2.3 万 条样本 ,覆盖真实图像场景与隐式多步骤推理任务,更贴近真实用户交互需求。我们提出了一种新颖的数据构 建流程 ToolEngine ,通过深度优先搜索(DFS)与动态上下文示例匹配机制,模拟人类工具使用过程中的推理链条。该数据集 涵盖 10 种多 模 态工具 与 7 类任务领域 ,每条样本平均涉及 2.78 步推理。在 ToolV ...