Workflow
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
机器之心·2025-07-05 02:46

机器之心报道 编辑:杨文、泽南 马斯克搭帐篷熬夜开发有效果了?这么高跑分,还不发布。 刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。 X 博主 @legit_api 发帖称,Grok 4 在 HLE(Humanities Last Exam,人类最后考试)上的标准得分是 35%,使用推理技术后提高到 45%;在 GPQA 上的得分是 87- 88%;而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。 这个跑分结果意味着什么?有网友将其与 OpenAI o3 和 Claude Opus 4 等竞争模型进行了对比。 Grok 4 在 HLE 上的标准得分约为 35%,使用推理技术后提升至 45%,这比 OpenAI o3 的最佳公开得分(约 20%)高出两倍,比 GPT-4o 高出四到五倍。 要知道 HLE 是一个自由回答测试,随机猜测准确率仅约 5%,因此每个百分点的提升都非常困难。 在 GPQA(研究生级物理和天文学问题)上,Grok 4 得分 87-88%,与 OpenAI o3 的顶级表现相当,并明显超过 Claude 4 Opus 的约 75%。 ...