Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹
AI前线·2025-06-17 06:56
在当今以闭源模型为主导、各大科技公司严格保护核心 AI 技术的环境下,一个开源项目能够真正挑 战行业顶尖产品实属罕见。 然而,DeepSeek 前段时间更新的最新版本 DeepSeek-R1(0528)不仅做到了这一点,甚至在某些 关键领域超越了 Claude Opus 4 和 GPT-4.1 这样的顶级商业模型。 真正引起开发者社区关注的是 R1 ( 0528)在大模型公共基准测试平台 LMArena 上的性能排名超越 了多个顶尖封闭模型。 R1 编码能力超过 Claude Opus 4 在 WebDev Arena 中,DeepSeek-R1(0528)的性能表现与 Gemini-2.5-Pro-Preview-06-05、 Claude Opus 4 (20250514) 等闭源大模型并列第一,更让人惊讶的是,R1(0528)得分为 1408.84 分,在分数上已经超过了得分为 1405.51 的 Claude Opus 4。 WebDev Arena 是由 LMArena 开发的实时 AI 编程竞赛平台,专注于 Web 开发挑战,让不同 AI 模 型同台竞技、一较高下。 | | Rank (UB) O ...