Workflow
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
Di Yi Cai Jing·2025-05-26 05:30

5月26日,红杉中国宣布推出一款全新的AI基准测试工具xbench,由红杉中国发起,联合国内外十余家高校和研究机构的数十位博士研究生,采用双轨评估 体系和长青评估机制。 双轨评估体系是指构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值。长青评估机制是指动态的、持续更新的评估方法。此前 行业模型进行榜单成绩对比时,会面临"刷榜"质疑。即静态评估集会出现题目泄露问题,模型反复测试可以将分数"刷"上去。 主流模型"刷爆"题目的速度越来越快,基准测试的有效时间在急剧缩短。 | Benchmark | | Category | 1st | @ 2nd | | --- | --- | --- | --- | --- | | ﺣﺎﻟﺔ | xbench-ScienceQA | AGI Tracking | 03- high | Gemini 2.5 Pro 57.2 | | | | | 60.8 | | | | xbench-DeepSearch | AGI Tracking | 03 65+ | o4-mini-high 60+ | | රි | xbench-Profession- recru ...