Workflow
IMO数学竞赛
icon
Search documents
大模型IMO25数学竞赛成绩公布了
量子位· 2025-07-18 06:16
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Gemini 2.5 Pro拔得头筹,大模型挑战IMO 2025的成绩出炉了! 经过人工评判, Gemini以超30%的总成绩断崖式领先 ,超出第二名89%。 o3和o4-mini则位列第二、三名,Grok 4得分只有11.9,但成本比Gemini还高出了22%。 还有网友想到了之前拿下IMO银牌的AlphaProof,好奇如果让它来挑战结果会怎样。 下面就来了解下这场测试的详细情况~ 统一环境,双人匿名评估 这场测试由 MathArena 组织,基于模其在MathArena竞赛中的既往表现,选择的被测模型包括Gemini 2.5 Pro、o3(high)、o4-mini (high)、Grok 4和DeepSeek-R1(0528)。 为了公平,测试对所有被测模型采用统一的提示词模板,该模板与Open Proof Corpus评估相同。 每个模型均使用推荐的超参数运行,最大Token数量限制为64000。 | Your task is to write a proof solution to the following problem. Your pr ...