AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇·2026-01-21 00:06

随着大模型在单点推理上日益逼近PhD水平,Agent领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显 乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过 构建更科学的评估基准,预判技术演进的未来方向。 Agent能否协助你一天的生活? 自从红杉中国xbench发布ScienceQA与DeepSearch以来,这两个评测集已经经历了多次迭代升级。无论是模 型本身,还是围绕模型构建的Agent系统,都已经在这些以分钟级为单位的集中推理任务上能够稳定胜任, 从最初的human-average水平,逐渐达到接近PhD-level的表现。 随着我们进一步进入Agent能力评测的领域,我们发现Agent完成短时任务与长时任务之间存在巨大的能力鸿 沟。即便在单点推理和局部任务中已达到极高水平,一旦任务在突破一般人一小时可处理的复杂度,Agent 的整体完成度就会出现明显下降。 从xbench所坚持的理念出发,更好的评估模型和智能体在实际工作和生活中的价值。我们希望通过评测体系 来观察行业技术路线的演进,预测模型能力的上限,同时也希望给业界补充一个面向utility和econ ...