6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心·2025-06-07 22:35
而自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷 逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考考它们。 在考题选择上,我们采用 2025 年数学新课标 Ⅰ 卷中的 14 道客观题进行测试,满分 73 分,包括 8 道单选 题、3 道多选题、3 道填空题。为保证公平公正,我们将题目截图分别投喂给大模型,不做 System Prompt 引导,不开启联网搜索,直接输出结果,且所有测试模型只有一次答题机会。 (注:在实测中我们发现 DeepSeek 的 OCR 识别出现不少错误,所以此次使用其他 AI 将图片转化为文本问题,再对 DeepSeek 进行测 试。) 编辑:杨文 还在让大模型写高考作文?有本事做高考数学卷子。 又是一年高考时。 这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,「高考数学」、「新一卷 数学大题 难」等词条就火速冲上微博热搜,考生们在评论区集体「哀嚎」:「大题写到怀疑人生」、「选 择填空送分,大题送命」。 机器之心报道 规则搞清楚了,接下来有请此次的参赛选手: 字节的豆包、深度求索的 ...