刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心·2025-05-26 04:12
随着基础模型的快速发展和 AI Ag e n t进入规模化应用,被广泛用于评估AI能力的基准测试 (Be n c hma r k)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困 难,这其中最直接的表现——基础模型"刷爆"了市面上的基准测试题库,纷纷在各大测试榜单 上斩获高分甚至满分。 因此,构建一个更加科学、长效和反映 AI客观能力的评测体系,正在成为指引AI技术突破与 产品迭代的重要需求。 5月2 6日,红杉中国宣布推出全新的AI基准测试x b e n c h,并发布论文《x b e n c h : Tr a c k i n g Ag e n ts Pr o d u c ti v it y, Sc a li n g wit h Pr o f e ssi o n -Ali g n e d Re a l-Wo rl d Ev a l u a ti o n s》。这是 首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨 评估体系和长青评估机制的AI基准测试。x b e n c h将在评估和推动AI系统能力提升上限与技术 边界的同时,重点量化AI系统在真实场景 ...