OIBench

Search documents
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 02:43
当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平; OpenAI 的顶尖模型屡屡被报道能通过谷歌高级编程面试,并在 LeetCode 挑战中表现出较高能力。 然而,将这些能力宣称与实际评测结果进行对比时, 当前评估体系的深层问题便随之显现: 这些鲜明的对比,共同指向一个 核心 问题 :当前对 LLM 编程能力的评估,往往存在 "宣传与现实的认知鸿沟"。这种差异不仅源于模型能力边界的复杂性,也暴 露出现有评估体系的诸多局限性。具体表现为: 为了解决上述这些评估困境、评测出全球顶尖模型真实的编程能力, Meituan-M17团队 推出了更真实、更具区分度的评估基准 OIBench 数据集,并托管于 AGI- Eval 评测社区 。基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离 以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远, ...