Workflow
开源智能体
icon
Search documents
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 07:50
一、背景:开源 Web Agent 在艰难任务中的困境与突破 在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,许多 复杂问题的解决都需要深入的信息挖掘和多步推理。然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触 及了人类认知的极限。为此,研究者们希望打造能够自主思考、自主决策的智能体,帮助我们应对这些复杂的信息检索任务。 当前开源 Web Agent 在极端复杂任务上表现不佳。OpenAI 提出的 DeepResearch 等闭源系统已经在极复杂的信息检索基准上展示了超越人类 的能力,如在 BrowseComp 任务上取得了 "超人类" 水平的成绩。相形之下,开源模型在这些任务上几乎束手无策:例如在 BrowseComp-en 这样的复杂基准上,已有开源 LLM 与 Web Agent 的准确率几乎为零。这意味着现有训练范式尚未赋予开源模型应对极高不确定性任务所需 的推理模式。简言之,开源智能体一直受困于无法有效降低极端不确定性。 BrowseComp 有多难?下面是一个例子: 有一部 HBO 剧集在 2018 ...