GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
机器之心·2025-08-15 04:17
前沿 AI 模型真的能做到博士级推理吗? 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现 让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 然而,现实可能并不如想象中那么乐观。 机器之心报道 机器之心编辑部 AAI,一个专注于超智能和高级 AI 系统研究的机构,近期提出的一个新基准 FormulaOne,让一众大 模型集体得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。 | 系统名称 | 相组 | 整体成功率 (%) | 更深层级成功 (%) | 最深层级成功(%) | | --- | --- | --- | --- | --- | | GPT-5 | OpenAl | 3.33 | 4 | O | | o3-Pro | OpenAl | 0.83 | 1 | O | | Claude 4 Opus | Anthropic | O | 0 | O | | Neo | CognitiaLabs | O | O | O | | Gemini 2.5 Pro | Google DeepMind ...