LiveCodeBench Pro

Search documents
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
机器之心· 2025-06-18 09:34
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超 越了人类平均水平。这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。 更进一步的,在结合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平台上获得了超过 2700 的 Elo 评分 —— 这个分数已跻身参赛者前 0.1%。 然而,这些简单的量化评估,真的能体现模型解决复杂问题的能力吗?我们不妨先问几个问题:LLMs 真的具备与顶级人类选手相当的推理能力吗?模型的高分究 竟有多少来自真实的推理能力,又有多少是依赖外部工具的结果? 为了解答上述问题,来自纽约大学、普林斯顿大学等 8 家机构的研究者提出了 LiveCodeBench Pro ,这是一个极具挑战性的竞技编程基准测试。 值得一提的是,这项研究有多位参加过国际算法竞赛。例如,作者之一、纽约大学本科生 Zihan Zheng 曾代表学校参加 ICPC 世界总决赛。 LiveCodeBench Pro 收录了 5 ...
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 09:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁 等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。 到底是什么让一众领先模型一败涂地? LiveCodeBench Pro :一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的 实时 基准测试。 题库还 每日更新 ,来预防LLMs"背题",不得不说这太狠了(doge)。 谢赛宁虽然也参与了这项工作,但他谦虚地说自己只是个啦啦队成员。 此前有报道称,LLM编程现在已超越人类专家,但本次测试结果表明并非如此。 表现最佳的模型,在中等难度题上的一次通过率 仅53% ,难题通过率更是为0。 即使是最好的模型o4-mini-high,一旦工具调用被屏蔽,Elo也只有 2100 ,远低于真正大师级的2700传奇线。 | Model | Hard | Medium | Easy | Rating | Pct.% | AvgTok | AvgCost | | --- | --- | --- | --- | --- | --- | --- | ...