Workflow
ToolEngine数据合成引擎
icon
Search documents
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集
具身智能之心· 2025-08-22 16:03
点击下方 卡片 ,关注" 具身智能之心 "公众号 编辑丨机器之心 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本文主要介绍来自该团队的最新论文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。 本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能, 但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。 为弥补这一空缺, ToolVQA 共包含 2.3 万 条样本 ,覆盖真实图像场景与隐式多步骤推理任务,更贴近真实用户交互需求。我们提出了一种新颖的数据构 建流程 ToolEngine ,通过深度优先搜索(DFS)与动态上下文示例匹配机制,模拟人类工具使用过程中的推理链条。该数据集 涵盖 10 种多 模 态工具 与 7 类任务领域 ,每条样本平均涉及 2.78 步推理。在 ToolV ...
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
机器之心· 2025-08-22 04:01
打破合成范式:ToolVQ A 开启真实图像下的多 步工具问答新纪元 本文提出了一种全新的多模态视觉问答数据集 ——ToolVQA,通过真实世界任务与复杂工具链模拟,为大模型提供系统化、多步推理的训练与评估基准。当前, 将外部工具集成进大模型(Large Foundation Models, LFMs)已成为提升其复杂任务处理能力的重要方向。借助外部工具,模型可以将难题拆解为更小的子任务, 交由特定功能的工具处理,从而实现更强的泛化与执行力。 本文第一作者是来自北京大学的本科生殷绍峰,合作者包含来自北京大学的博士生雷廷,通讯作者为北京大学王选计算机研究所研究员、助理教授刘洋。 本文主要介绍来自该团队的最新论文:ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools。 本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真 实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。 为弥补这一空缺, To ...