我们离Coding领域的「AGI时刻」还有多远?字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准
机器之心·2026-02-13 01:02

在 AI 编程领域,大家似乎正处于一个认知错觉的顶点:随着 Coding Agents 独立完成任务的难度和范围逐渐增加,Coding 领域的 AGI 似乎就可以实现? 然而,真正的工程师都知道,写代码的灵魂不在于 file/function level 的 code creation,而是 project level 的 code completion。写了很长时间的代码,不代表项目做 完,更不代表项目做好了。 一个完整的项目开发要求 开 发者从一个空文件夹开始,理解上万 token 的需求,设计架构、管理多模态逻辑,并产出可安装、可运行的代码仓库。然而现有代码 评测基准主要集中在局部代码生成(如 HumanEval、MBPP)或在已有代码库上进行修复(如 SWE-bench)。 近日,首个专门评估编码智能体端到端仓库生成能力的基准测试 ——NL2Repo-Bench 正式发布。它由字节跳动 Seed、南京大学、北京大学等多家机构的研究者联 合打造,发布后受到广泛关注。 Show me your Repo, NL2Repo 如何考察 Coding Agent 从 0 到 1 工作能力? 论文标题: NL2R ...