5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
机器之心·2025-06-26 06:10
编辑:杨文、+0 机器之心报道 测试全程未做任何 prompting engineering,所有输入均为高考原题,其中 DeepSeek R1 输入为题目文本,其 余模型则是题目文本和题目截图。在总分计算上,采用 3(语数外)+3(理综 / 文综)的形式对 5 个模型进 行排名。 从最终成绩单来看,这 5 家大模型的文科成绩均超 620 分, 如果按照山东高考的赋分制,豆包的 683 分可 以冲刺清华、北大 ;在理科方面,各大模型之间的分数差距则较为明显, Gemimi 和豆包已达到保底重点 985 的水准,而 Claude 4 和 o3 还不及 600 分。 去年高考全科测评中,大模型们还只能勉强踩到一本线,面对复杂的数学、物理题目时,虽然能产出答 案,但思路浅显、推理链条不够严密,常常给人一种「全靠蒙」的感觉。然而短短一年过去,技术更新带 来了质的飞跃,大模型展现出越来越强的逻辑推理和解决深度问题的能力。 语数英区分度较小,理科总分不及文科 在语、数、外等基础学科上,参评模型整体表现优异,均已达到顶尖考生水平,彼此间的区分度相对较 小。不过,o3 模型因作文跑题导致语文单科得分偏低,拖累了其总分。 今年 ...