40位数学家组成8队与o4-mini-medium比赛，6队败北

| 机器之心报道 | | --- | 编辑：Panda、陈陈最近，AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上，它已经悄然超越了我们大多数人类。而当它面对真正的专家，会发生什么？ Epoch AI 最近安排了一场硬仗：他们请来了 40 位数学家组成 8 支战队，与 OpenAI 的 o4-mini-medium 模型正面对决，考题来自高难度的 FrontierMath 数据集。结果令人出乎意料：8 支人类队伍中，只有 2 支打败了 AI。也就是说，o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是：「虽然 AI 还未明显达到超人级水平，但或许很快了。」人类在 FrontierMath 上的表现如何？ FrontierMath 是 Epoch AI 去年发布的一个基准，旨在测试 AI 数学能力的极限。其中包含 300 道题，难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。为了确定人类的基准，Epoch AI 在麻省理工学院组织了一场竞赛，邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 ...