Workflow
高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
机器之心·2025-06-10 17:56

机器之心报道 编辑:杨文、+0 AI挑战全套高考数学题来了! 话接上回。 高考数学一结束,我们连夜使用六款大模型产品,按照一般用户截图提问的方式,挑战了 14 道最新高考客观题,不过有网友质疑测评过程不够严 谨,所以这次我们加上解答题,重新测一遍。 本次参加挑战的选手分别是:Doubao-1.5-thinking-vision-pro、DeepSeek R1、Qwen3-235b、hunyuan-t1-latest、文心 X1 Turbo、o3,并且新增网友们非常期待的 Gemini 2.5 pro。上一次我们使用网页端测试,这次除 o3 外,其他模型全部调用 API。 在考题选择上,我们仍然采用 2025 年数学新课标 Ⅰ 卷,包含 14 道客观题,总计 73 分;5 道解答题,总计 77 分。其中第 6 题由于涉及到图片,我们就单独摘出 来,后面通过上传题目截图的形式针对多模态大模型进行评测。其他文本题目全部转成 latex 格式,分别投喂给大模型,还是老规矩,不做 System Prompt 引导, 不开启联网搜索,直接输出结果。 (注:第 17 题虽然也涉及到图片,但文字表述足够清晰,不影响答题,因此 ...