GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
量子位·2025-03-04 04:51
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 基础模型竞争又紧张刺激起来了! 有人解释原因在于,大模型竞技场有一个投票数量门槛,两个一周前发布的模型刚好先后达到3000票才会出现在榜单上。 不过抛开跑分之外,GPT-4.5的口碑也在悄然翻转。 GPT-4.5口碑翻转 GPT-4.5刚发布时显得又大又贵,官方强调情商看起来很虚,看跑分也没比GPT-4o高到哪里去了。 | | GPT-4.5 | GPT-4o | OpenAl o3-mini (high) | | --- | --- | --- | --- | | GPQA (science) | 71.4% | 53.6% | 79.7% | | AIME '24 (math) | 36.7% | 9.3% | 87.3% | | MMMLU (multilingual) | 85.1% | 81.5% | 81.1% | | MMMU (multimodal) | 74.4% | 69.1% | | | SWE-Lancer Diamond (coding)* | 32.6% | 23.3% | 10.8% | | | $186,125 | $138 ...