红杉中国,10天发两篇Paper
投资界·2026-01-21 02:01

红杉中国xbench再迎重大更新。 导 读 : 上 周 , 红 杉 中 国 联 合 Un i P a t AI 发 布 了 评 估 大 模 型 纯 视 觉 理 解 能 力 的 评 测 集 Ba b yVisi o n 。 作 为 红 杉 x b e n c h 基 准 测 试 中 AGI Tr a c k i n g 的 一 部 分 , Ba b yVisi o n 揭 开 了世界模型和视觉多模态的未来还有巨大的发展潜力。 今 天 , x b e n c h 再 发 一 篇 p a p e r , 并 迎 来 重 要 更 新 。 随 着 大 模 型 在 单 点 推 理 上 日 益 逼 近 P hD水平,Ag e n t领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。因 此,x b e n c h正式推出Ag e n tI F -On eDa y评测体系,不再单纯考核模型知道多少知识,而 是衡量它解决全场景长时复杂任务的能力。 Ag e n tI F -On eDa y 深 入 探 索 了 从 On eHo u r 到 On eDa y 的 能 力 跨 越 , 揭 示 了 主 流 Ag e n t 在 ...