Agent能力评测
Search documents
红杉中国,10天发两篇Paper
投资界· 2026-01-21 02:01
红杉中国xbench再迎重大更新。 导 读 : 上 周 , 红 杉 中 国 联 合 Un i P a t AI 发 布 了 评 估 大 模 型 纯 视 觉 理 解 能 力 的 评 测 集 Ba b yVisi o n 。 作 为 红 杉 x b e n c h 基 准 测 试 中 AGI Tr a c k i n g 的 一 部 分 , Ba b yVisi o n 揭 开 了世界模型和视觉多模态的未来还有巨大的发展潜力。 今 天 , x b e n c h 再 发 一 篇 p a p e r , 并 迎 来 重 要 更 新 。 随 着 大 模 型 在 单 点 推 理 上 日 益 逼 近 P hD水平,Ag e n t领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。因 此,x b e n c h正式推出Ag e n tI F -On eDa y评测体系,不再单纯考核模型知道多少知识,而 是衡量它解决全场景长时复杂任务的能力。 Ag e n tI F -On eDa y 深 入 探 索 了 从 On eHo u r 到 On eDa y 的 能 力 跨 越 , 揭 示 了 主 流 Ag e n t 在 ...
AgentIF-OneDay发布,评估全场景长时复杂任务
红杉汇· 2026-01-21 00:06
随着大模型在单点推理上日益逼近PhD水平,Agent领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显 乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过 构建更科学的评估基准,预判技术演进的未来方向。 Agent能否协助你一天的生活? 自从红杉中国xbench发布ScienceQA与DeepSearch以来,这两个评测集已经经历了多次迭代升级。无论是模 型本身,还是围绕模型构建的Agent系统,都已经在这些以分钟级为单位的集中推理任务上能够稳定胜任, 从最初的human-average水平,逐渐达到接近PhD-level的表现。 随着我们进一步进入Agent能力评测的领域,我们发现Agent完成短时任务与长时任务之间存在巨大的能力鸿 沟。即便在单点推理和局部任务中已达到极高水平,一旦任务在突破一般人一小时可处理的复杂度,Agent 的整体完成度就会出现明显下降。 从xbench所坚持的理念出发,更好的评估模型和智能体在实际工作和生活中的价值。我们希望通过评测体系 来观察行业技术路线的演进,预测模型能力的上限,同时也希望给业界补充一个面向utility和econ ...