Workflow
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心·2025-06-17 00:10

机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...