闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
机器之心·2025-08-06 04:31
机器之心报道 机器之心编辑部 从目前战况来看,Grok 4 是夺冠热门。 在玩游戏方面,到底哪个模型最厉害?为了回答这个问题,谷歌近日发起了首届大模型国际象棋对抗赛。 这场比赛为期三天,参赛选手包括: 刚刚,我们拿到了第一轮比赛的结果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。 以下是模型对阵图。 这个比赛是在一个名叫「Kaggle Game Arena」的平台上进行的。这是 Kaggle 公司的一个新项目,旨在跳出平时的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中表现如何。 在昨天的报道中,我们详细描述了这场比赛的规则,比如不允许模型调用 Stockfish 等国际象棋引擎。(详情请参见《 谷歌约战,DeepSeek、Kimi 都要上,首届大 模型对抗赛明天开战 》) 以下是对战的详细信息: Kimi k2 对阵 o3:0-4 Kimi k2 与 o3 的对局较早结束,四局比赛都在八步棋内完成。 ...