GPT-5被吐槽没进步?Epoch年终报告打脸:AI在飞速狂飙,ASI更近了
3 6 Ke·2025-12-24 11:17

【导读】Epoch AI年终大盘点来了!出乎意料的是,AI没有停滞,反而变快了。 最近,Epoch AI又发了不少东西。 他们在FrontierMath上测试了几个开源权重的中文模型。 结果是,它们在1-3级的最高得分,要落后于全球顶尖AI模型大约七个月。 而在较难的第四级,几乎所有开源中文大模型都挂了零蛋。 唯一得分的选手,只有DeepSeek-V3.2 (Thinking)。它回答对了一道题,取得了1/48 ≈ 2%的分数。 当然,虽然这些中文开源大模型挂蛋了,外国模型们表现也很差。 GPT、Gemini这些顶尖模型,在传统的数学测试(比如 GSM-8k、MATH)上简直一路飙分。然而在FrontierMath上,它们的正确率也并不高。 不过从表中可以看出,它们的表现至少要比中文开源模型好一些。原因是为什么呢?暂时没找到。 而所有AI模型都考不好,是因为FrontierMath不是普通的benchmark,而是由60+名数学界顶尖专家联手出题,更有菲尔兹奖得主背书 。 它是一套真正的数学大考卷,不是那种简单的公式代入、算算微积分的小测验,而是专家级的原创难题,覆盖数论、实分析、代数几何、范畴论等,甚至 是 ...