大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位·2025-06-18 09:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁 等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。 到底是什么让一众领先模型一败涂地? LiveCodeBench Pro :一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的 实时 基准测试。 题库还 每日更新 ,来预防LLMs"背题",不得不说这太狠了(doge)。 谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。 此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。 表现最佳的模型,在中等难度题上的一次通过率 仅53% ,难题通过率更是为0。 即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有 2100 ,远低于真正大师级的2700传奇线。 | Model | Hard | Medium | Easy | Rating | Pct.% | AvgTok | AvgCost | | --- | --- | --- | --- | --- | --- | --- | ...