不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink

DeepSeek称,这款模型展现了强大的定理证明能力。换句话说,与此前大多大模型在数学方面的表现 不同,Math-V2不再只是"做题家",而真正有可能靠自身全面、严谨的数学推理能力对科学研究产生深 远影响。 DeepSeek也列举了多项验证该模型的强大的证据:Math-V2在IMO(国际数学奥林匹克竞赛)2025和 CMO(中国数学奥林匹克)2024上都取得了金牌级成绩,在北美大学生数学竞赛Putnam 2024上通过扩 展测试计算实现了接近满分的成绩(118/120)。 DeepSeek以验证器为奖励模型训练证明生成器,并激励生成器在最终定稿前尽可能多地识别和解决自 身证明中的问题,并通过扩展验证计算能力,自动标记新的难以验证的证明,从而创建训练数据以进一 步改进验证器。 最终,Math-V2诞生了。 此前,今年7月,OpenAI和谷歌都曾宣布其模型在IMO2025中取得了金牌级成绩,一度形成大模型数学 能力天花板。相比于二者,DeepSeek的Math-V2不仅是首个开源的IMO金牌级模型,在测试中,也在部 分性能上展现出了更大的优势。 在IMO-Proof Bench评估中,基准测试方面Math-V2得 ...