DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位·2025-03-04 04:51
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人 手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。 不过别慌,大模型通用知识推理评测"强化版"来了,堪称大模型评测里的"黄冈密卷"! 允中 发自 凹非寺 量子位 | 公众号 QbitAI 大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天??? 近日,字节跳动豆包大模型团队联合 M-A-P 开源社区,推出了全新评测基准 SuperGPQA 。 我们翻看论文,细品一番,足足 256 页。据了解,该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注。 研究团队构建了迄今为止最全面,覆盖 285 个研究生级学科、包含 26529 道专业题目的评估体系。 实验证明,即便最强的 DeepSeek-R1 在 SuperGPQA 上准确率也才 61.82%,在及格线上挣扎,显著低于其在传统评估指标上的表现。 SuperGPQA 精准直击大模型评测 ...