Workflow
AI“角斗场”实盘大赛落幕,阿里千问夺冠, GPT-5亏麻了, Gemini成“末日空头”
硬AI·2025-11-04 06:48

阿里 千问 和 DeepSeek两款中国模型成为唯二盈利的模型。相比之下,四款美国顶尖模型全部亏 损。 作者 | 硬 AI 编辑 | 硬 AI 11月4日,备受关注的AI大模型实时投资比赛"Alpha Arena"落下帷幕。结果极具戏剧性:阿里 千问 Qwen 以 22.32%收益 夺得冠军 ;而 OpenAI的GPT-5和谷歌 的Gemini 2.5 Pro则遭遇惨败,分别亏损 62.66 %和 56.71 %, 大幅腰斩。 在这场为期 17天、全程无人工干预的实盘对决中,阿里 千问 和 DeepSeek两款中国模型成为唯二盈利的模型。相比之下,四款美国顶尖模型全部亏损。 这场由美国人工智能研究实验室 Nof1发起的"AI角斗场",可能是迄今为止对AI"真实决策水平"最残酷的一次检验。 长久以来,我们习惯于用 MMLU、SWE-Bench之类的学术基准来衡量AI的"智商"。这些榜单固然重要,但它们更像是实验室里的"标准智力测验",无法回答一个 更根本的问题:当AI离开"考场",进入混乱、动态且充满对抗的真实世界时,它的"决策水平"究竟如何 ? 为了回答这个问题,美国人工智能研究实验室 Nof1发起了一场名为 ...