5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

编辑：杨文、+0 机器之心报道测试全程未做任何 prompting engineering，所有输入均为高考原题，其中 DeepSeek R1 输入为题目文本，其余模型则是题目文本和题目截图。在总分计算上，采用 3（语数外）+3（理综 / 文综）的形式对 5 个模型进行排名。从最终成绩单来看，这 5 家大模型的文科成绩均超 620 分，如果按照山东高考的赋分制，豆包的 683 分可以冲刺清华、北大；在理科方面，各大模型之间的分数差距则较为明显， Gemimi 和豆包已达到保底重点 985 的水准，而 Claude 4 和 o3 还不及 600 分。去年高考全科测评中，大模型们还只能勉强踩到一本线，面对复杂的数学、物理题目时，虽然能产出答案，但思路浅显、推理链条不够严密，常常给人一种「全靠蒙」的感觉。然而短短一年过去，技术更新带来了质的飞跃，大模型展现出越来越强的逻辑推理和解决深度问题的能力。语数英区分度较小，理科总分不及文科在语、数、外等基础学科上，参评模型整体表现优异，均已达到顶尖考生水平，彼此间的区分度相对较小。不过，o3 模型因作文跑题导致语文单科得分偏低，拖累了其总分。今年 ...