AI Benchmarking

Search documents
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 02:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...