我们离Coding领域的「AGI时刻」还有多远？字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准

在 AI 编程领域，大家似乎正处于一个认知错觉的顶点：随着 Coding Agents 独立完成任务的难度和范围逐渐增加，Coding 领域的 AGI 似乎就可以实现？然而，真正的工程师都知道，写代码的灵魂不在于 file/function level 的 code creation，而是 project level 的 code completion。写了很长时间的代码，不代表项目做完，更不代表项目做好了。一个完整的项目开发要求开发者从一个空文件夹开始，理解上万 token 的需求，设计架构、管理多模态逻辑，并产出可安装、可运行的代码仓库。然而现有代码评测基准主要集中在局部代码生成（如 HumanEval、MBPP）或在已有代码库上进行修复（如 SWE-bench）。近日，首个专门评估编码智能体端到端仓库生成能力的基准测试 ——NL2Repo-Bench 正式发布。它由字节跳动 Seed、南京大学、北京大学等多家机构的研究者联合打造，发布后受到广泛关注。 Show me your Repo， NL2Repo 如何考察 Coding Agent 从 0 到 1 工作能力？论文标题： NL2R ...