Workflow
ProjDevBench
icon
Search documents
AI编程真面目:完整项目通过率仅27%
3 6 Ke· 2026-02-09 11:29
AI编程是一项非常有实用价值的能力,但网络上不时也能看到程序员抱怨AI"听不懂人话"、"难以找到根本问题",更有直接建议"每次生成代码不要超过5 行"的经验分享。 而近期又有很多AI工具声称可以从零快速构建完整代码项目。 所以AI编程智能体真的能从零构建完整软件项目吗?近日一多校联合研究团队针对这一问题进行了探索。 上海交通大学、上海创智学院、加州大学默塞德分校、北京理工大学(按论文作者顺序)联合发布ProjDevBench——首个通过OJ细粒度反馈评估AI编程 智能体端到端项目开发能力的基准测试,要求智能体仅凭自然语言需求文档,从零开始构建完整、可运行的软件仓库。 当任务从"补全现有代码"变为"从零构建"时,性能出现断崖式下跌。 结果令人深思:所有智能体总体提交AC率仅27.38%。 该研究得出的结论摘要: 为什么需要端到端项目开发基准 现有基准测试如HumanEval、MBPP聚焦于函数级代码生成,SWE-bench关注issue修复,但真实软件工程需要的远不止这些。当开发者使用Cursor或GitHub Copilot进行"vibe coding"时,他们期望智能体能够:从零设计系统架构、创建和组织多个 ...