Workflow
DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报

欢迎收看最新一期的Hunt Good周报! 在本期内容你会看到: 昨日,X 博主 @legit_api 曝光了马斯克旗下 xAI 即将发布的新一代模型 Grok-4 及其编程版本 Grok-4 Code 的一组基准测试成绩,引发关注。 在被称为「人类最后的考试」(HLE)的评估中,Grok-4 取得了 35% 的基础得分,开启推理功能后进一步提升至 45%,显著领先于 OpenAI 的 o3 以及 Google Gemini 系列在该测试中的表现。 | "grok-4-0629": { | | --- | | Standard: { | | HLE: "35", | | GPQA: "87", | | "AIME'25": "95" | | 1, | | "Test Time Compute": { | | HLE: "45", | | GPQA: "88", | | "AIME'25": "." | | 1 | | "grok-4-code-0629": { | | Standard: { | | SWEBench: "72", | | "Terminal Bench": | | }, | | "Test ...