DeepSeek新版R1模型实际性能如何?第三方评测来了
DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学 推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。 此前,DeepSeek更新R1模型时提到,新版R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型 在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、 可靠的结果。 SuperCLUE的测评结果显示,新版R1模型在榜单上超过o3,居于第四位,总分63.55,比旧版R1提升 1.61分。相比之下,o4-mini(high)在被测模型中得分最高,为70.51分;Gemini 2.5 Pro preview 05-06为 66.48分,居第二。 5月29日,DeepSeek(深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构 SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模 型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。 此外,R ...