双轨评估体系

Search documents
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 02:37
在基础模型疯狂"刷榜"的时代,传统的AI基准测试正迅速失效——各大模型纷纷取得满分,评测榜单失去了区分度与指导意义。当"考卷"不再能反映真实 能力,测评本身就成了问题。 因此,构建一个更加科学、长效和反映 AI 客观能力的评测体系,正在成为指引 AI 技术突破与产品迭代的重要需求。 5 月 26 日,红杉中国宣布推出全新的 AI 基准测试 xbench ,并发布论文《 xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real- World Evaluations 》。这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的 AI 基 准测试。 xbench 将在评估和推动 AI 系统能力提升上限与技术边界的同时,重点量化 AI 系统在真实场景的效用价值,并长期捕捉 Agent 产品的关键突破。 xbench 基准测试的特点包括: • xbench 采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与 Agent 的实际落地价值。该体系创新性地将评 ...
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心· 2025-05-26 04:12
随着基础模型的快速发展和 AI Ag e n t进入规模化应用,被广泛用于评估AI能力的基准测试 (Be n c hma r k)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困 难,这其中最直接的表现——基础模型"刷爆"了市面上的基准测试题库,纷纷在各大测试榜单 上斩获高分甚至满分。 因此,构建一个更加科学、长效和反映 AI客观能力的评测体系,正在成为指引AI技术突破与 产品迭代的重要需求。 5月2 6日,红杉中国宣布推出全新的AI基准测试x b e n c h,并发布论文《x b e n c h : Tr a c k i n g Ag e n ts Pr o d u c ti v it y, Sc a li n g wit h Pr o f e ssi o n -Ali g n e d Re a l-Wo rl d Ev a l u a ti o n s》。这是 首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨 评估体系和长青评估机制的AI基准测试。x b e n c h将在评估和推动AI系统能力提升上限与技术 边界的同时,重点量化AI系统在真实场景 ...