DeepSeek强势回归,开源IMO金牌级数学模型
突破级推理模型来了,DeepSeek 打开了自我验证的数学推理方向。 The whale is back! 就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。 那时隔一年半,这个基于 DeepSeek-V3.2-Exp-Base 开发的 DeepSeek-Math-V2 又带来了哪些惊喜? DeepSeek 表示,它的性能优于 Gemini DeepThink,实现了 IMO 金牌级的水平。 顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。 论文开篇,DeepSeek 就指出了当前 AI 在数学推理方面的研究局限:以正确的最终答案作为奖励,过于追求最终答案准确度。 这种做法虽然能让推理模型在 AIME 和 HMMT 等基准上达到更高水平,乃至达到饱和,但 DeepSeek 表示这并不能解决核心问题:正确答案并不保证推 理过程正确 ...