比IMO还难的数学挑战赛,谷歌赢了OpenAI
3 6 Ke·2026-02-26 07:59

IMO金牌已经"过时"了。 基于Gemini 3 Deep Think的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。 在公布的完整成绩单中,10道题Aletheia全程0人工参与解出6道,其中5题专家全票通过,还有一题拿到了5/7的通过率。 | | Aletheia | Expert Evaluation | | --- | --- | --- | | | (best of 2) | (correct/total) | | P1 | N/A | | | P2 | Correct | 4/4 | | РЗ | N/A | | | P4 | N/A | | | P5 | Correct | 4/4 | | be | N/A | | | P7 | Correct | 3/3 | | P8 | Correct? | 5/7 | | P9 | Correct | 4/4 | | P10 | | 2/2 | FirstProof是由来自哈佛、斯坦福等名校的11位顶尖数学家联手打造的一套专门验证AI独立科研能力的数学题集。 10道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿 ...

比IMO还难的数学挑战赛,谷歌赢了OpenAI - Reportify