实测思维链大变!DeepSeek R1一个“小升级”性能直逼o3,但仍“过度思考”?
AI前线·2025-05-29 03:58
节前更新似乎已经是 DeepSeek 的惯例了。刚刚,DeepSeek 在 Huggingface 平台开源了 R1 的新 版本 DeepSeek-R1-0528。 项目地址: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 据悉,新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中, DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3(High)版本。 | | | 8/1/2024 | | 5/1/2025 | | --- | --- | --- | --- | --- | | Rank Model | | Pass@1 ↓ | Easy-Pass@1 | Medium-P | | 1 | 04-Mini (High) | 80.2 | 99.1 | 8 | | 2 | 03 (High) | 75.8 | 99.1 | 8 | | 3 | 04-Mini (Medium) | 74.2 | 98.2 | 8 | | 4 | DeepSeek-R1-0528 | 73.1 | 98.7 | 8 ...