Workflow
40位数学家组成8队与o4-mini-medium比赛,6队败北
机器之心·2025-05-24 03:13

| 机器之心报道 | | --- | 编辑:Panda、陈陈 最近,AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上,它已经悄然超越了我们大多数人类。而当它面对真正的专家,会发生什么? Epoch AI 最近安排了一场硬仗:他们请来了 40 位数学家组成 8 支战队,与 OpenAI 的 o4-mini-medium 模型正面对决,考题来自高难度的 FrontierMath 数据集。 结果令人出乎意料:8 支人类队伍中,只有 2 支打败了 AI。也就是说,o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的 结论是:「虽然 AI 还未明显达到超人级水平,但或许很快了。」 人类在 FrontierMath 上的表现如何? FrontierMath 是 Epoch AI 去年发布的一个基准,旨在测试 AI 数学能力的极限。其中包含 300 道题,难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都 有。 为了确定人类的基准,Epoch AI 在麻省理工学院组织了一场竞赛,邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 ...