Workflow
DeepSeek上新,“奥数金牌水平”
第一财经·2025-11-28 00:35

2025.11. 28 在同步发布的技术论文中,DeepSeek表示,Math-V2的部分性能优于谷歌旗下的Gemini DeepThink,并展示了模型在 IMO-ProofBench基准以及近期数学竞赛上的表现。 本文字数:1072,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-V2。这是一个数学方面的模 型,也是目前行业首个达到IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。 具体来看,在其中的Basic基准上,DeepSeek-Math-V2 远胜其他模型,达到了近99%的高分,而排在第二的谷歌旗下 Gemini Deep Think (IMO Gold)分数为89%。但在更难的 Advanced 子集上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。 在这篇名为《DeepSeek Math-V2:迈向可自验证的数学推理》的论文中,DeepSeek指出,大语言模型已经在数学推理 方面取得了重大进展,这是人工智能的重要试验 ...