Workflow
Code2Bench
icon
Search documents
ICLR 2026 | 北航开源Code2Bench:双扩展动态评测,代码大模型告别躺平刷分
机器之心· 2026-02-21 04:06
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我 们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「 记忆力」? 现有的代码基准正面临两大核心挑战: 数据污染 的风险,以及 测试严谨性不足 。前者使评测可能退化为「 开卷考试」,后者则常常导致一种「 正确的幻觉 」 (Illusion of Correctness)—— 模型生成的代码或许能通过少数示例,却在复杂的真实世界边缘场景中不堪一击。 为了打破这种「 高分幻觉」,来自北京航空航天大学的研究团队提出了一种全新的基准构建哲学 —— 双重扩展(Dual Scaling) ,并基于此构建了端到端的自动化 框架 Code2Bench 。该研究旨在为代码大模型的评估,建立一个更动态、更严苛、也更具诊断性的新范式。 目前,该论文已被 ICLR 2026 接收。 论文标题:Code2Bench: Scaling Source and Rigor for Dynamic Benchmark Construction 我们需要什么样的 Benchma ...