Deep Research Agent

Search documents
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 06:44
研究团队 投稿 量子位 | 公众号 QbitAI 首个开源多模态Deep Research Agent来了。 整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决 策,使模型在任务中能自主选择合适的工具组合和推理路径。 假设你让一个 AI 回答这样一个问题: "在这张图所示动物的 Wikipedia 页面上,2020 年之前带有 'visual edit' 标签的修订次数是多少?" 听起来不复杂,但要得到正确答案,需要经过多个环节: 1 从图像中识别出动物(它是一只 海鹦Atlantic puffin ,而不是外形相似的鹈鹕、企鹅或海鸥)。 2 找到对应的 Wikipedia 页面并进入历史版本记录。 3 筛选出 2020 年之前带有 "visual edit" 标签的版本,并进行精确计数。 从上面案例可以看出,要解决这类问题,光有感知和理解还不够,Agent还需要能够制定计划、灵活调用不同工具、在推理过程中不断验证和 修正方向。 这类跨模态、跨工具、多步骤的任务,需要具备 深度研究(Deep Research) 能力的Agent才能 ...